Archiv

Artikel Tagged ‘index’

robots.txt – was ist das, brauch man das?

Was macht eine robots.txt?
Eine robots.txt, platziert im root-Verzeichnis einer Domain, sagt den verschiedensten Webcrawlern und Spidern der Suchmaschienen welche Seiten dieser Domain in den Index der jeweiligen Suchmaschiene aufgenommen werden dürfen, bzw. welche nicht.

Wozu brauch ich das?
Man kann auf diesem Wege beispielsweise dafür sorgen, das das Impressum einer Webseite, oder das Administrative Backend (bei WordPress /wp-admin/ oder bei Typo3 /typo3/) nicht bei Google in den Suchergebnissen auftaucht. Ebenso kann man mittels der robots.txt dem Webcrawlern mitteilen, das nur die jeweils ersten Seiten einer Webseite gecrawlt werden sollen, weitere Unterseiten nicht. Auch kann man hierrüber bestimmen, ob die Bilder, welche auf der Seite sind, im Bildindex bei Google auftauchen dürfen, oder eben nicht.

Was bedeutet die Fehlermeldung File does not exist: /var/www/virtual/mydomain.com/htdocs/robots.txt ?
Diese Fehlermeldung sieht man in seinem Apache Logfile, wenn man keine robots.txt im angegebenen Verzeichnis liegen hat und dieses das “Quellverzeichnis” der Webseite ist. Verursacht wird die meldung durch einen Webcrawler, beispielsweise dem Googlebot, welche jede Webseite immer wieder nach einer robots.txt absuchen. Wenn die Datei nicht verhanden ist, liefert der Apache Webserver natürlich eine Fehlermeldung an den Crawler und schreibt diesen Eintrag in das Logfile. Wenn man also lediglich diese Fehlermeldung loswerden möchte, dann sollte man einfach eine leere robots.txt im entsprechendem Verzeichnis ablegen.

Beispiele für robots.txt Dateien – Alles erlaubt
Im erstem Beispiel wird über eine robots.txt alle Webcrawleren etc. der volle Zugriff auf die gesamte Webseite erlaubt. Inklusive aller Unterseiten und aller Bilder.

# Ganze Site freigeben
User-agent: *
Disallow:

User-agent: gibt an, für welchen Robot die Regel gelten soll, mit dem Sternchen gilt diese Einstellung für alle Robots. Anstelle eines Allow: * schreibt man für eine Freigabe ein Disallow: ohne Angabe was verboten ist, somit ist alles freigegeben. Wer mag darf natürlich auch Allow: * schreiben…

Beispiele für robots.txt Dateien – Alles verboten
Ich habe es schon einige male erlebt, das Seiten, welche ich noch in der Entwicklung hatte, schon bei Suchmaschienen im Index standen. Für Entwicklungszwekce kann es also auch ganz sinnig sein, wenn man nicht alles erlaubt, sondern im Gegenteil, alles untersagt. Dazu muss lediglich ein “/” bei Disallow: ergänzt werden:

# Ganze Site sperren
User-agent: *
Disallow: /

Beispiele für robots.txt Dateien – WordPress Backend verbieten
Um nur ein Verzeichnis (oder mehrere) vom indizieren auszuschließen, muss man dieses Verzeichnis explizit ausschließen, oder, alternativ, alles sperren bis auf die Verzeichnisse und Dateien die auftauchen sollen:

# Alles freigeben bis auf das WordPress Backend
User-agent: *
Disallow: /wp-admin/

Speziell nur eine Datei freigeben:

# Nur die Indexseiten freigeben
User-agent: *
Disallow: /
Allow: /index.php

Beispiele für robots.txt Dateien – Eine Datei sperren
Warum sollte man nur eine Datei sperren? Nun, bei Seiten, welche sich häufig ändern macht es wenig sinn, wenn diese mit “alten” Inhalten im Suchmaschienenindex landen. Ein Beispiel dafür wären News Seiten. Nichts ist älter als die Zeitung von gestern, oder?

# Nur die Newsseite sperren, da diese sich täglich ändert
User-agent: *
Disallow: news.php

Beispiele für robots.txt Dateien – Keiner ausser Google
Wahre Googlefans wollen vielleicht das ihre Seiten exklusiv für Google zur Verfügung gestellt werden. Das lässt sich auch bewerkstelligen:

# Hier die drei Googlebots erlauben
User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
Disallow:
User-agent: Mediapartners-Google
Disallow:
# Hier den Rest aussperren
User-agent: *
Disallow: /

Beispiele für robots.txt Dateien – Alles ausser Google Bildersuche
Die Gefahr des Diebstahls geistigen Eigentums ist im Internet extrem hoch. Speziell Bilder werden oftmals einfach “geklaut”. Die meisten werden obendrein über die Google Bildersuche fein sortiert angeboten. Im Normalfall weniger schlimm, jedoch ab und zu sind ein paar Spezialisten darunter, welche die Bilder einfach nur auf Ihren Seiten verlinken, sprich nicht einmal selber hosten und den ganzen Traffic auch noch auf anderen Seiten lassen. Diese Art ist dann quasi doppelt illegal… Um solche Leuten den Diebstahl zumindest etwas schwerer zu machen, oder einfach nur um die Bilder des letzten Familienausfluges nicht im Googlebilderindex wiederzufinden, kann man natürlich den Gooblebot für die Bildersuche aussperren:

# Google Bildersuche aussperren
User-agent: Googlebot-Image
Disallow: /
# Hier den Rest aussperren
User-agent: *
Disallow:

HINWEIS:
Alle diese Maßnahmen in der robots.txt sind natürlich kein hundertprozentiger Schutz, aber die meisten Robots halten sich an die Regeln, welche ihnen über die robots.txt mitgeteilt werden. Und menschliche Benutzer lassen sich hiermit garnicht aufhalten, oder haben Sie zuerst meine robots.txt gelesen und anschließend erst diesen Artikel?

Weblinks
Hier noch ein paar nette Links zu diesem Thema, unter anderem eine recht umfangreiche Liste von Webcrawlern/Robots:


ZOCKEN BIS DER ARZT KOMMT!