De Googlebot is een robot die dag in, dag uit het internet afstruint, op zoek naar nieuwe content. Het is een geautomatiseerd programma dat wordt gebruikt door Google om webpagina’s te ontdekken en te indexeren, zodat ze kunnen worden opgenomen in de zoekresultaten van Google. Dit proces noemen we crawlen, waarna de gevonden informatie opgenomen wordt in de database. Dit opslaan van informatie heet indexeren. De Googlebot, ook wel spider geheten, houdt zich dus bezig met het crawlen en indexeren van websites.
Hoe werkt de Googlebot?
Om het internet te doorzoeken maakt de Googlebot gebruik van links, zowel interne links als externe links. Heb je dus een nieuwe website, dan is het van belang ervoor te zorgen dat er naar jouw site gelinkt wordt op het web. Zo weet de Googlebot jouw website te ontdekken en kan hij de pagina’s indexeren.
Belangrijk is dat je op je eigen website op een logische manier gebruikmaakt van interne links. Zo kan de crawler de structuur van de website begrijpen. Door ervoor te zorgen dat er naar elke pagina op je site gelinkt wordt en er dus geen ‘losstaande’ pagina’s zijn, maak je het mogelijk je volledige website te laten crawlen.
Crawlt de Googlebot écht het hele internet?
De Googlebot is ontwikkeld omdat het checken van alle miljarden webpagina’s die er bestaan voor mensen onbegonnen werk is. De Googlebot kan dit veel sneller en efficiënter. Maar zelfs voor de slimme spider van Google is het niet te doen om iedere keer maar weer het hele internet af te gaan. Daarom is er voor elke site een bepaald crawlbudget, dat gebaseerd wordt op onder meer de grootte, leeftijd en autoriteit van die website. Dat crawlbudget staat voor het aantal links per website dat gevolgd kan worden. Het is dan ook belangrijk om redirects en dode links zo veel mogelijk te beperken, omdat deze ten koste gaan van je crawlbudget.