Die robots.txt-Datei ist eine Textdatei, die Verhaltensregeln für Web-Crawler und andere Bots enthält. Die robots.txt-Datei wird normalerweise im Stammverzeichnis einer Website gespeichert und gibt an, welche Bereiche der Website für Bots zugänglich sind oder nicht. Die robots.txt-Datei ist nicht verpflichtend und kann von Webmastern verwendet werden, um bestimmte Bereiche ihrer Website vor dem Zugriff durch Bots zu schützen. Allerdings müssen Bots die robots.txt-Datei beachten, wenn sie vorhanden ist, da sie sonst die Regeln in der Datei verletzen könnten. Die Hauptnutzung der robots.txt-Datei besteht darin, den Zugriff auf Seiten zu beschränken, die noch nicht für die Öffentlichkeit bestimmt sind, oder die Bandbreite eines Servers zu entlasten, indem der Zugriff auf bestimmte Inhalte beschränkt wird.
Die robots.txt Datei befindet sich normalerweise im Stammverzeichnis Ihrer Website (d. h. www.beispiel.de/robots.txt). Die Datei enthält eine Reihe von Regeln, die Webrobotern mitteilen, welche Seiten sie crawlen und welche sie ignorieren sollen. Diese Regeln werden unter Verwendung des Robots Exclusion Standard festgelegt, der von den meisten großen Suchmaschinen verwendet wird. Die robots.txt-Datei ist optional, aber es ist im Allgemeinen eine gute Idee, eine solche Datei in Ihre Website aufzunehmen, um sicherzustellen, dass Ihre Seiten von Suchmaschinen ordnungsgemäß indexiert werden.
In ihrer einfachsten Form enthält eine robots.txt-Datei zwei Textzeilen: User-Agent: [Name des Webroboters] Disallow: [URL, die vom Crawling ausgeschlossen werden soll] Die erste Zeile gibt an, für welchen Webroboter die Anweisung gilt. Die zweite Zeile weist den Webcrawler an, die angegebene URL nicht zu crawlen. Bots befolgen in der Regel die Anweisungen in robots.txt-Dateien, so dass die Verwendung dieser Datei eine effektive Möglichkeit ist, bestimmte Seiten von der Indexierung durch Suchmaschinen auszuschließen. Es ist jedoch zu beachten, dass robots.txt-Dateien nicht immer befolgt werden; einige Web-Robots ignorieren sie, und andere können versehentlich eine Seite auslesen, die eigentlich ausgeschlossen werden sollte. Daher ist es immer ratsam, zusätzlich zu einer robots.txt-Datei andere Methoden zum Schutz der Website zu verwenden, z. B. den Passwortschutz von Seiten oder die Verwendung von noindex-Tags.
Es gibt verschiedene Möglichkeiten, die robots.txt-Datei zu formatieren, aber das gängigste Format ist das Standardformat. In diesem Format werden die Anweisungen „User-agent“ und „Disallow“ verwendet, um Webbots mitzuteilen, welche Seiten sie crawlen und welche sie ignorieren sollen. Die „User-agent“-Befehle teilen dem Web-Bot mit, mit welcher Art von Roboter Sie sprechen, während die „Disallow“-Befehle ihm sagt, welche Seiten Ihrer Website er ignorieren soll. Wenn Sie z. B. möchten, dass alle Webbots alle Seiten Ihrer Website mit Ausnahme der Startseite ignorieren, würden Sie den folgenden Code verwenden:
Benutzer-Agent: *
Disallow: /
Das Sternchen in dem „User-agent“-Befehl sagt allen Webbots, dass die folgende Anweisung für sie gilt. Das „/“ in dem „Disallow“-Befehl sagt ihnen, dass sie alles auf Ihrer Website außer der Startseite ignorieren sollen. Sie können in Ihren Befehlen auch Platzhalter verwenden. Wenn Sie also möchten, dass alle Webbots alle Dateien mit der Erweiterung .jpg ignorieren, würden Sie den folgenden Code verwenden:
Benutzer-Agent: *
Disallow: /*.jpg$
Das „$“ am Ende der Zeile sagt dem Web-Bot, dass diese Anweisung nur für Dateien mit der Erweiterung .jpg gilt. Sie können auch mehrere „Disallow“-Anweisungen in Ihrer robots.txt-Datei verwenden, wenn Sie mehrere Dateitypen oder mehrere Seiten Ihrer Website ausschließen möchten. Denken Sie nur daran, dass jede Anweisung in einer eigenen Zeile stehen muss und dass jede Anweisung nur für den Web-Bot gilt, der in der Anweisung “ User-agent “ darüber angegeben ist.