Logo WWW-Info

I N F O S   A B O U T   World Wide Web   

Webseitenaufbau | Suchmaschinen | PageRank | 
Infos einer Webseite | Tipps und Tricks | 



Impressum  
Partnerlinks -1 -2 
Linktausch  
Spenden  
History  
AGB  
 
 
zurück vor Home
 
 

Suchmaschinen

Allgemeines über die Webcrawler der Suchmaschinen

Ein Webcrawler (auch Spider oder Robot, kurz Bot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Webcrawler, Robots oder Spider durchsuchen ständig das Internet nach neuen Webseiten und untersuchen auch die bekannten Seiten nach neuen Inhalten. Der gesamte Quelltext einer Webseite wird gelesen und mittels eines so genannten Ranking-Algorithmus bewertet. Seiten mit einem hohen PageRank werden in kürzeren Abständen untersucht. Die Robots speichern dabei Texte und Verlinkungen zu anderen Seiten. Aus der Anzahl der Verlinkungen wird der PageRank errechnet. Dazu mehr unter PageRank auf dieser Seite. Dynamische Websites können von Suchmaschinen nicht indiziert werden, wobei es laut Google inzwischen funktionieren soll. In meinem Onlineshop für Camcorder und Digitalkameras findet Google gerade mal eine Seite und auch nur den Text, den ich in den NoFrame Bereich geschrieben habe.
Holen sie sich eine kostenlose Probelektion bei Online Kurs: Suchmaschinen-Optimierung, damit Sie auch gefunden werdenAdbutler

robots.txt

In der Datei robots.txt kann man angeben, welcher Such-Robot welche Verzeichnisse auslesen darf und welche nicht. Die Datei enthält Anweisungen für Robots von Suchmaschinen. Moderne Suchmaschinen berücksichtigen das Vorhandensein einer robots.txt, lesen sie aus und befolgen die Anweisungen. Mit Hilfe eines Meta-Tags könnte man auch in einzelnen HTML-Seiten das Auslesen für Suchprogramme erlauben bzw. verbieten. Das betrifft jedoch nur die jeweilige HTML-Seite. In einer robots.txt können Sie festlegen welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen oder nicht.
So könnte eine robots.txt aussehen:

User-agent: *
Disallow:/picture/
Disallow:/logs/

Hier wurden die Verzeichnisse /pictue und /logs für alle Suchmaschinen gesperrt. Alle anderen Verzeichnisse sind automatisch freigegeben. Sie sollten auf jeden Fall eine Datei erstellen und im Rootverzeichnis ihres Webspace speichern um Fehlermeldungen bei der Abfrage von Robots zu vermeiden.

Die robots.txt ist eine Textdatei und muss mit einem Texteditor bearbeitet werden. Bei Windows Betriebssystemen zu finden unter ->programme->zubehör->editor


Zusammenfassung
  • Die robots.txt ist eine Textdatei und muss mit einem Texteditor bearbeitet werden.
  • Der Dateiname muss mit kleinen Buchstaben gespeichert werden.
  • Die Datei muss im rootverzeichnis ihrer Webdateien gespeichert werden. Normalerweise dort, wo auch die Datei index.htm gespeichert ist.

Zum Thema robots.txt finden Sie viele Informationen unter Robots kontrollieren bei Selfhtml.


 

 
   © 2006 by Pohl-EDV, Garching b. München •  
 
HTML4.01 Valid