dinsdag, juni 05, 2007

Google's ranking algorithm nader bekeken

Een must-read in de New York Times: reporter Saul Hensell mocht een dag meelopen in 'Google's inner sanctum', de 'search quality' group die verantwoordelijk is voor de kwaliteit van de zoekmachine. Ook al is Google op talloze terreinen actief, dit is en blijft het hart van de onderneming.

Google in cijfers

Google bestrijkt 112 talen, tientallen miljarden webpagina's en honderden miljoenen zoekopdrachten per dag. De zoekmachine, het 'ranking algorithm', bestaat uit duizenden vergelijkingen. De index waarin gezocht wordt is een getrouwe kopie van het internet. Veel pagina's worden tegenwoordig om de paar dagen opnieuw bekeken.

Google search quality

De leiding ligt bij Udi Manber (afkomstig van de University of Arizona, Yahoo! en Amazon search). Het ranking algorithm ligt bij een team van Amit Singhal (ex AT&T Labs). Verder zijn er teams die zich wijden aan features (zoals de snippets bij resultaten) en er is een team dat verantwoordelijk is voor de index.

Google in termen

Belangrijke termen zijn Buganizer (het systeem waardoor werknemers problemen kunnen rapporteren, soms wel 100 per dag), Debug (een intern programma dat toont hoe zoekopdrachten en pagina's geevalueerd worden) en Freshness (de verhouding tussen oudere, gerespecteerde pagina's en nieuwe content). Wat Freshness betreft: Google hanteert de grootheid QDF, query deserves freshness. Op basis van een model wordt vastgesteld wat een gebruiker wil en of het onderwerp 'hot' is.

Google's algoritme

Google hanteert ruim 200 Signals (informatiebronnen), waaronder het aloude PageRank (hoe meer links naar een pagina wijzen hoe belangrijker de pagina is). Andere Signals zijn de informatie op een pagina (bijvoorbeeld bepaalde woorden of plaatjes), de wijze waarop een pagina in de tijd verandert, het patroon in zoekopdrachten en de zoekgeschiedenis van individuen (alleen voor ingelogde Gmail-gebruikers). Op basis van de Signals construeert Google Classifiers (formules), die aangeven wat de zoeker zoekt: een product, informatie, een persoon, etc. Het eindresultaat is een relevancy score van de pagina's. Daarbij wordt nog gekeken naar de topicality (hoe verhoudt zich het onderwerp van de pagina tot de zoekopdracht?) en diversity (opdat de eerste 10 resultaten niet al te eenvormig zijn).