Hummingbird Update
Mit dem Hummingbird Update führte Google 2013 eine umfassende Erneuerung seines Kernalgorithmus durch, die insbesondere die Bedürfnisse der Mobilgerätenutzer und der konv...
- 09 Okt., 2024
- 0 Kommentare
Die robots.txt ist eine Textdatei, in der du festlegen kannst, welche Teile einer Domain ein Webcrawler crawlen darf und welche nicht.
Mit der Textdatei robots.txt kannst du einzelne Dateien in einem Verzeichnis, ganze Verzeichnisse, Unterverzeichnisse oder komplette Domains vom Crawling exkludieren. Du hinterlegst sie dafür im Root der Domain.
Fast jede Webseite im Internet enthält eine robots.txt Datei, nicht alle Webseitenbetreiber befassen sich jedoch genau mit derer Funktion oder wissen, dass sie überhaupt existiert.
Ist der Crawler einer Suchmaschine auf einer Webseite angekommen, sucht er nach einer robots.txt Datei. Findet er sie, liest der Crawler sie als erstes.
Weil sie Informationen oder eventuell Anweisungen enthält, "wie die Suchmaschine crawlen soll", weisen die dortigen Informationen weitere Crawler-Aktionen auf dieser speziellen Webseite an. Gibt es keine robots.txt Datei (oder wenn sie keine Anweisungen enthält, die die Aktivität eines Benutzeragenten verbietet), untersucht die Suchmaschine alle Inhalte, die über den Quelltext verlinkt werden. Aber die Suchmaschinen entscheiden noch immer selbst, ob sie sich an die Anweisungen der robots.txt halten oder diese zum Teil oder gar komplett ignorieren.
Besitzt du noch keine robots.txt, kannst du diese ganz einfach erstellen:
Bei WordPress kannst du eine Art Muster-Robots.txt über das Yoast-Plugin unter „Werkzeuge“ mit einem Klick erstellen. Dort kannst du dann auch die Robots.txt bearbeiten.
Auf dem Server deiner Webseite kannst du im Start- bzw. Stammverzeichnis über einen FTP-Client wie FileZilla ganz leicht ein Text-Dokument erstellen, über Notepad beispielsweise mit dem Namen „robots.txt“. Über den Server kannst du diese Datei dann auch ganz unkompliziert bearbeiten. Zur Sicherheit solltest du vor Änderungen immer eine Sicherheitskopie bzw. Backup deiner alten robots.txt Datei erstellen.
Zur Erstellung einer robots.txt Datei stellt Google Webmastern eine Anleitung zur Verfügung.
Bei der Suchmaschinenoptimierung (SEO) nimmt die robots.txt Datei je nach Webseite eine große Rolle ein.
Bei WordPress kannst du über die robots.txt den Zugriff auf den Admin Bereich (wp-admin) verwehren, um etwa die sensiblen Daten zur Datenbank, die dort liegen, zu schützen.
Andere Webseiten-Arten, wie zum Beispiel Online-Shops, sperren über die robots.txt gewisse Parameter oder IDs aus, um Duplicate Content zu verhindern. Aber auch um die Menge an irrelevanten Seiten für Suchmaschinen zu limitieren und den Fokus auf relevante Inhalte zu lenken.
Die Funktion der Datei ist stets mit Vorsicht zu genießen. Einerseits entscheiden Suchmaschinen selbst, ob sie sich an die Anweisungen aus der robots.txt Datei halten, andererseits kannst du durch fehlerhafte Angaben wichtige Inhalte für Suchmaschinen unzugänglich machen.
Die robots.txt entscheidet das Crawl-Verhalten für deine Webseite, während der Meta-Robots-Tag das Indexierungsverhalten auf der Ebene der einzelnen Seite (oder eines Seitenelements) bestimmen kann. Die Benutzung der robots.txt ist aber nicht unbedingt leicht: Bei kleineren Webseiten muss eine robots.txt keine zahlreichen Anweisungen beinhalten, während bei größeren Seiten und Online-Shops die richtige Bedienung dagegen eine wichtige Rolle für Crawlbarkeit und saubere Indexierung spielen kann.
Mit dem Hummingbird Update führte Google 2013 eine umfassende Erneuerung seines Kernalgorithmus durch, die insbesondere die Bedürfnisse der Mobilgerätenutzer und der konv...
Beim Fred Update handelt es sich um eine Reihe von Anpassungen am Google Algorithmus, die auf die Qualität von Inhalten abzielen. Definition Mit dem Fred Update hat...
Das Google Panda Update hat seit seiner Einführung die Welt der Suchmaschinenoptimierung nachhaltig verändert. Mit diesem Update hat Google im Jahr 2011 seinen Ranking-Al...
Kommentar hinzufügen
Ihre E-Mail-Adresse wird nicht veröffentlicht.