robots.txt – Suchmaschinen Anweisungen

Die robots.txt ist eine kleine nützliche Datei, die du auf deinem Hauptverzeichnis hochladen kannst. So kannst du Bots versuchen vorzuschreiben, welche Seiten aufgerufen werden sollen und welche nicht.

Bitte beachte…

…, dass jeder deine robots.txt einsehen kann. Sie ist nicht so, wie beispielsweise eine .htaccess Datei geschützt. Soll heißen, wenn du Seiten wie ein Admin-Panel vor Besuchern verbergen willst setze besser den Meta Tag: robots ein.

Außerdem muss kein Bot diese Datei beachten, die meisten Suchmaschinen Bots beziehen diese zwar beim Crawlen ein, ‚bösartigen‘ Spam Bots wird das allerdings egal sein, ob eine solche Datei existiert.

Die robots-Befehle

Wenn du den Suchmaschinen etwas mitteilen möchtest, benötigst du dafür verschiedene Befehle. Mit folgenden drei kannst du arbeiten: User-agent (lege fest für welche Bots die folgende Regel gilt), Disallow (verbiete dem Bot den Zugriff auf folgendes Verzeichnis) und Crawl-delay (Bot darf nur alle x Sekunden eine Seite aufrufen). Zunächst solltest du einfach eine robots.txt im Hauptverzeichnis anlegen, die ganz normal aufgerufen werden kann, anschließend kannst dir ja mal die folgenden Beispiele anschauen.

Das Hauptverzeichnis meint das oberste, über deine Webseite aufgerufene Verzeichnis. Bei www-coding.de beispielsweise muss die robots.txt also unter dem folgenden Pfad zu finden sein: http://www-coding.de/robots.txt

Die Beispiele

Ich möchte dir nun anhand einiger Beispiele aufzeigen, wie du die Befehle verwenden kannst, um die Indexierung deiner Seiten zu regeln.

robots.txt von WWW Coding
Unsere robots.txt sieht wie folgt aus:
User-agent: * Disallow: /impressum/ Disallow: /piwik/Wir sagen hiermit, dass alle Bots (User-agent: *, das * ist ein Platzhalter für alle Bots) die mit einem Disallow gekennzeichneten URLs (/impressum/ und /piwik/) ignorieren sollen.

Allen Bots den Zugriff verbieten
Wenn du allen Bots den Zugriff auf alle deine Seiten verbieten möchtest, nutze einfach den folgenden Code:
User-agent: * Disallow: /Du siehst also, wenn du dein Hauptverzeichnis („/“)
angibst, verhindert dies die Indexierung von all deinen Unterseiten. Würdest du die Stelle nach dem Doppelpunkt leer lassen, so hätte dies den gegenteiligen Effekt und alle deine Seiten würden indexiert.

Ausnahmen definieren
Nehmen wir einmal den vorherigen Code, wenn du allen Bots bis auf Ausnahmen den Zugriff verweigern möchtest, geht das wie folgt:
User-agent: Googlebot User-agent: bingbot Disallow: /impressum/User-agent: *
Disallow: /Hier weist du Bing und Google an, nur das Impressum nicht zu indexieren. Alle anderen Bots sollen jedoch keine Seite in ihren Index aufnehmen.

Anzahl der Zugriffe durch Bots einschränken
Wenn ein Bot eine Seite für deinen Geschmack zu oft aufruft, kannst du den Bot anweisen deine Homepage nur alle x Sekunden aufzurufen beziehungsweise nur alle x Sekunden einen Seitenaufruf zu tätigen, bei vielen Unterseiten sollte diese Zahl entsprechend klein sein.User-agent: * Crawl-delay: 60
Diese Regel weist nun alle Bots an nur alle 60 Sekunden einen Seitenaufruf zu tätigen. Es ist allerdings fraglich, wir wirksam eine solche Regel heute noch ist. Google beispielsweise erlaubt Webmastern nur über die Google Webmaster-Tools Einstellungen diesbezüglich anzupassen.

Die verschiedenen User-agents

Nun wäre es natürlich noch interessant zu wissen, welche Bots du wie ansprechen kannst, dafür hier nun die Botbezeichnungen (User-agent):‘

Google Suche
User-agent: Googlebot

Google Bildersuche
User-agent: Googlebot-Image

Google Adwords
Adsbot-Google

Google AdSense
MediaPartners-Google

Bing
User-agent: bingbot

Bei weiteren Suchmaschinen ist der String meist etwas länger, da hilft es dann meist einfach zu googeln 😉

WWW Coding

robots.txt – Suchmaschinen Anweisungen

Bitte beachte…

Die robots-Befehle

Die Beispiele

Die verschiedenen User-agents

Ein Kommentar zu „robots.txt – Suchmaschinen Anweisungen“

Coding im World Wide Web: PHP, JavaScript & Co.