Myös Google osaa salaisuus / paljastus leikin
Google on viime aikoina ollut useinkin esillä useassakin eri mediassa entistä avoimempana. Googlen hakukoneguru Udi Manberin kirjoitti äskettäin Googlen käyttämistä hakutulosten käsittelymalleista (eli algoritmeista). Samankaltaista perustietoa tarkempaa kuvausta Googlen hakuteknologiasta tarjoili myös Jeff Deanin esitelmä Google I/O-konferenssissa. Syystä tai toisesta Google on viime aikoina ruvennut leikkimään salaisuus/paljastus leikkiä median edessä. Mitään oikeita salaisuuksia Google ei (vielä) ole paljastanut, vaan ennemminkin se on julkisesti vahvistanut yleisesti tiedossa olleita olettamuksia faktoiksi - ja herättänyt tietenkin uusia kysymyksiä.
Ihmiset hakevat tietoa edelleenkin hyvin yksinkertaisesti
“We also need to understand the queries people pose, which are on average fewer than three words…“.
Ts. enemmistö (kansainvälisen) Googlen kautta suoritettavista hakutermeistä on (edelleen) alle 3 sanaa. Hakukoneoptimoinnin kannalta tämä tarkoittaa suoraan sitä, että sekä avainsanatutkimus että optimoitu sisällöntuotanto kannattaa keskittää 1 ja/tai 2 sanan termeihin. Omalla (ei suoralla) tavallaan lauseen voi myös tulkita vahvistavan yleisesti voimassa olevaa käsitystä siitä, että Googlen käyttämät algoritmit käyttäytyvät eri tavalla hakuehdon sanamäärästä riippuen.
PageRank elää ja voi hyvin
“…PageRank is still in use today, but it is now a part of a much larger system… “Other parts include language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on), query models (it’s not just the language, it’s how people use it today), time models (some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time), and personalized models (not all people want the same thing).”
Tämä on mielestäni selkeä vastaus jo useita vuosia foorumeissa / yhteisöissä kummitelleeseen “PageRank on kuollut”-väittämään. PageRank-arvolla, ja sitä kautta siis sivustojen sisäisellä ja keskinäisellä linkitystopologialla on edelleen merkitystä. Viittaus PageRank-järjestelmää suuremmasta järjestelmästä on puolestaan asia, josta hakukoneoptimoijat ovat keskustelleet / väitelleet jo vuosia.
Taustalla olevista algoritmimalleista esim. aikamallit ja personoitu haku ovat useimmille optimoijille tutuiksi tulleita ilmiöitä / käsitteitä. Udin kirjoituksen myötä ajan käyttö yhtenä lajittelukriteerinä hakutermikohtaisesti sai kaipaamansa “virallisen” vahvistuksen hakusijoituksiin vaikuttavana tekijänä. Mielenkiintoinen kysymys onkin mitkä tekijät laukaisevat erilaisen aikamallin käyttämisen ja voisiko sitä kautta kontrolloida esim. uutispalvelun / blogin hakukonenäkyvyyttä.
Hakukoneoptimoija on muutosvoimien armoilla
In 2007, we launched more than 450 new improvements, about 9 per week on the average… Most of the time we look for improvements in relevancy, but we also work on projects where the sole purpose is to simplify the algorithms. Simple is good.”
Tämä perustelee enemmän kuin hyvin miksi Googlen hakutulokset elävät jatkuvasti jossain määrin. Muutokset jylläävät järjestelmässä jatkuvasti. Googlen viesti hakukoneoptimoijille on hyvin yksinkertainen: algoritmit muuttuvat, vaatimukset muuttuvat – jos sivuston tavoitteena on pelata, on sen optimoinnissa seurattava muutosvoimia poteroon kaivautumisen sijaan.
Yhdistettynä aiemmin mainittuun lainaukseen lukuisista algoritmeista ja niiden osa-alueista, voi vain ihmetellä kuinka paljon hakukoneoptimoinnin haasteet ovat muuttuneet ja kuinka heikosti hakukoneoptimoijat ovat vastanneet muutosvoimiin. Monet optimoijat elävät edelleenkin 5-6 vuotta vanhojen oppien perusteella ja etsivät yksittäistä graalin maljaa, jonka avulla menestyksen voisi toistaa sivulta toiselle. Kuten Udinkin viestistä voi lukea, sellaista ei ole.
Vihollisen työkalulla on nimi - MapReduce
“…three core elements of Google’s software: GFS, the Google File System, BigTable, and the MapReduce algorithm..
MapReduce, the first version of which Google wrote in 2003, gives the company a way to actually make something useful of its data. For example, MapReduce can find how many times a particular word appears in Google’s search index; a list of the Web pages on which a word appears; and the list of all Web sites that link to a particular Web site. With MapReduce, Google can build an index that shows which Web pages all have the terms “new,” “york,” and “restaurants”–relatively quickly.
The MapReduce software is increasing use within Google. It ran 29,000 jobs in August 2004 and 2.2 million in September 2007. Over that period, the average time to complete a job has dropped from 634 seconds to 395 seconds, while the output of MapReduce tasks has risen from 193 terabytes to 14,018 terabytes….”
MapReduce on nimenä varmaan useimmille hakukoneoptimointia pintapuolisesti tunteville uusi, mutta kyseessä on kohtalaisen vanha menetelmä, jota Google hyödyntää sisäisesti hyvinkin monipuolisesti. Käytännössä MapReduce on työkalu, joka on mahdollistanut Googlen käyttämien hakualgoritmien monipuolistumisen ja kehittymisen nykyiseen tilanteeseen tietomäärien kasvusta huolimatta.
Hakutulosten manuaalinen arviointi
“We organized a network of people all over the world who provide us with feedback, and we have a large set of volunteers from all parts of Google who speak different languages and help us improve search.”
Ts. Google pyrkii suorittamaan laajamittaista hakutulosten manuaalista laaduntarkkailua eri kielillä. Sinällään tämä on aivan normaali osa ohjelmistotuotteen toimivuuden testausta, mutta…
Koska suomalaisilla foorumeilla on viime aikoina puhuttu melko paljon Googlen laaduntarkkailusta, voi aihetta ruotia tarkemmin. Olisi hyvinkin mielenkiintoista tietää esim. kuinka suuri henkilöjoukko vastaa esim. suomenkielisten hakutulosten laadunarvioinnista. Henkilökohtaisesti haluaisin uskoa, että kyseessä on vähintään 75 - 100 henkilön arvioijajoukko, mutta pahoin pelkään että Googlen panostamat alueelliset resurssit ovat paljon pienemmät.
Aivan normaalien matemaattisten tilastomallien mukaisesti pienessä joukossa poikkeusten mielipide voi vääristää mittaustulosta hyvinkin huomattavasti, sen sijaan suuressa joukossa poikkeukset tasoittuvat / sulautuvat massaan. Omalta osaltaan esim. pieni / vinoutunut hakutulosten arvioijajoukko voisi selostaa niitä kummallisuuksia, joita Googlen suomenkielisissä hakutuloksissa on näkynyt viimeisen parin vuoden aikana.
Eräs suosituimmista (paranoideista) retorisista kysymyksistä maailmalla on ”Quis custodiet ipsos custodes?”. Mielestäni on hyvinkin ihmeellistä, että Googlen sisäinen toiminta on välttynyt globaalisti(kin) suuremmilta korruptioskandaaleilta. Todennäköisesti kyseessä on vain tiukan tiedottamispolitiikan aiheuttama harhakuva, ja todellisuudessa myös Google kärsii samanlaisista sisäisistä ongelmista kuin esim. DMOZ tai Digg.
Loppusanat
Kuten aina, sana on vapaa. Jos tämä kirjoitus ihastutti tai vihastutti, niin hyödynnä sananvapauttasi kirjoittamalla vastine joko omaan blogiisi tai lisäämällä uusi kommentti.