Webdesignerin

Webdesignerin

Dipl. Wi. Infrom. Susanne Wollatz

Crawlen

Crawlen bezeichnet den Vorgang, bei dem Suchmaschinen wie Google automatisiert Websites durchsuchen, um deren Inhalte zu erfassen. Dabei folgen sogenannte Crawler (auch Bots oder Spider genannt) den Links auf einer Seite, um neue oder aktualisierte Inhalte zu entdecken.

Crawlen ist der erste Schritt im Prozess der Suchmaschinenindexierung. Spezielle Programme – sogenannte Crawler oder Suchmaschinenbots – durchsuchen das Internet systematisch, indem sie Webseiten abrufen, analysieren und ihre Inhalte auslesen.

Der bekannteste Crawler ist der Googlebot, daneben gibt es auch den Bingbot, DuckDuckBot oder YandexBot.

So funktioniert der Crawl-Prozess:

  1. Der Crawler startet mit einer Liste bekannter URLs.

  2. Er ruft die Seite auf und liest den HTML-Code.

  3. Er folgt den internen und externen Links auf der Seite, um neue Seiten zu entdecken.

  4. Die gesammelten Daten werden an die Suchmaschine weitergegeben, wo sie im nächsten Schritt indexiert werden.

Die Häufigkeit, mit der eine Website gecrawlt wird, nennt man Crawl-Rate. Diese hängt u. a. von der Aktualität, Beliebtheit und Struktur der Seite ab. Regelmäßig aktualisierte und gut verlinkte Seiten werden häufiger besucht.

Webseitenbetreiber können den Crawl-Prozess steuern oder einschränken, z. B. durch:

  • die robots.txt-Datei, mit der bestimmte Bereiche von der Suche ausgeschlossen werden,

  • oder das meta-Tag „nofollow“, das verhindert, dass Crawler einem bestimmten Link folgen.

Auch die Servergeschwindigkeit spielt eine Rolle: Wenn der Server zu langsam antwortet, reduziert Google die Crawl-Frequenz, um ihn nicht zu überlasten.

Praxisbeispiel:
Sie veröffentlichen eine neue Seite auf Ihrer Website. Der Googlebot besucht Ihre Seite automatisch oder nachdem Sie sie in der Google Search Console eingereicht haben. Er lädt die Inhalte, folgt den internen Links, entdeckt weitere Unterseiten und übermittelt die Daten an den Google-Index.

Ohne Crawlen kann eine Seite nicht indexiert und somit auch nicht in den Suchergebnissen angezeigt werden. Es ist also die Grundlage jeder Suchmaschinenoptimierung (SEO).