Hvordan Google virker i detaljer er i virkeligheden en dyb forretningshemmelighed. Men heldigvis er der sprækker vi kan kigge ind ad. Der er videnskabelige afhandlinger (af Googles stiftere selv), patentansøgninger, diverse it-lærebøger og lækager fra medarbejdere, der sammen med mange personers erfaring med at optimere, giver et godt indblik i, hvad der sker.
Google ændrer konstant på sine metoder, for at kunne præsentere deres brugere for de mest relevante resultater. Det sker i kapløb med at nogle udbydere af varer og service på internettet drager fordel af disse metoder, på måder, der efter Googles mening ikke bidrager til relevansen. Google vil vinde denne kamp i det lange træk. De har miliarder af dollars i ryggen og vil uværgerligt lukke alle huller efter en kort periode.
Så for at få en langsigtet og dermed effektiv brug af din indsats og penge, bør du optimere efter de retningslinier, som Google stikker ud på deres hjemmeside. De kan følges direkte, som de er. Alligevel er det nu godt at kende principperne bag Google.
GoogleBot - uhyret du vil elske
Google har nogle computer programmer, der i daglig tale kaldes agenter, 'spiders' eller robotter.
Deres opgave er at gennemløbe hele internettet og finde information, som Google kan stoppe ind i
deres databaser. Disse databaser eller indeks er dem, vi søger i og ikke selve internettet. Hvis Google skulle fræse 8-20 milliarder
af sider igennem ude på nettet, hver gang vi søgte på et ord, ville vi skulle vente dagevis på et resultat.
Google må derfor læse hele pivtøjet igennem på forhånd og finde ud af, hvad det hele handler om, så siderne hurtigt skaffes frem, når en søger skal bruge noget af det.
Googles robot kalder sig GoogleBot. Du kan se efter dette navn i dine serverlogs eller trafikanalyser. Den kan fylde meget i besøgslisten, især under gruppen Trafik fra USA. Men had den ikke - den er afgjort din ven. Det er din vej ind i Google og din sikring for at blive der. Giv den lidt at spise og kæl for den.
Vejen ind
GoogleBot, som vi nu bare kalder GB i det følgende, rejser rundt på internettet ved at følge de links, der er på websiderne. Mange tror, at GB spørger en server, 'Hvad har du liggende af websider hos dig?'. Nej, hele Googles strategi er, at hvis der ikke linkes til en side, er der ingen der finder den relevant og derfor ikke umagen værd at se på for GB.
Man kan tilmelde sin startside til Google og lokke GB indenfor. Men hvis ikke, der inden for en cirka en måned er andre, der vil linke, så holder GB op med at kigge forbi og siden glider ud i glemslens mørke.
Nu er GB altså kommet til din startside. Ved første besøg ser den sig lige omkring. Det vil sige den bruger lidt tid på at se hvilke sider, du selv linker til. Disse links bliver overført til en fortegnelse over links, som GB vil se nærmere på en anden gang. Det kan være få timer efter, eller det kan være på onsdag. Lige snuses der blot rundt. Men det er et vigtigt snus!
Sit GB, Sit!
Det lyder utroligt, men meget kan faktisk gå galt her. Der er mange webdesignere, der laver sider, så de spænder ben for GB. Man kan fjolle med en fil der hedder robots.txt og som er til for at vejlede robotterne i deres arbejde. Man tror man kan bestille genbesøg hos robotterne med visse meta-tags (men reelt udsætter med det) osv. Den typiske tåbelighed ligger dog i ikke at benytte ordentlige anker-links.
For at være rigtig smarte og kreative benytter nogen menusystemer, der ikke kan sende GB og dens kolleger fra andre søgemaskiner rundt på ens egne sider. Elendige rammesystemer, Flash, Image-maps og meget andet tun og gejl, der kan imponere en besøgende, men ikke tiltrække nye besøgende, er meget brugt.
Brug blot rene links af typen <a href="filnavn.htm">. I de rigtige hænder kan det såmænd også animeres og gøres grafisk lækkert.
Bruger man et CMS er der også fejlmuligheder. GB er blevet dygtigere til at læse de komplicerede adresser, der bruges i CMSer, men rissikoen for at fare vild inde i en database, gør at GB arbejder meget forsigtigt. Yderligere kan brug af login-scripts, cookies og meget andet hindre at GB kommer rundt på webstedet. GB kan nemlig ikke afvikle kode eller læse cookies.
Noget af det skyldes dårligdomme ved produktet, andet ligger som nævnt arvet ind i systemets natur. Der er udveje på problemet. Det omfatter blandt andet site-maps eller sidefortegnelser, der lægges ud som let fordøjeligt mad til GB. Google opfordrer direkte til denne praksis.
Hvad er meningen?
Vi er nu sluppet igennem de første besøg og GB har fået en ide om vores struktur på indholdet. Men hvad er indholdet? Hvad handler det om, og hvad er det relevant for? Det er sin sag som en computer, der er 100% matematisk orienteret, at begynde at forstå, hvad en tekst indeholder. Det går da heller ikke altid for godt, hvilket er, hvad der føder optimeringseksperterne i den mørkere ende af skalaen. Men der arbejdes på det bag det blege skærme hos Google.
Første trin i at kunne fremvise en side for en søger er at finde ud af, om det søgte ord optræder på en given side. Søger vi på 'elefanter', så forventer vi at se sider, der et eller andet sted har det ord med. GB henter siden og gennemgår alle ordene. Ordene skæres ned til deres stamme. 'Elefanter' laves om til 'elefant'. Flertalsendelsen tages fra og alle bogstaver bliver små. Det sker i hvert fald med engelske ord. Ikke alle sprog dækkes på denne måde endnu.
Sidens adresse kobles nu på ordet 'elefant' inde i Googles indeks. De andre ord indekseres på samme måde. Alle sider med det ord i sig står nu i Googles ordbog under ordet 'elefant'. Når du søger på 'Elefant', skæres søgeordet igen ind til stammen og ordet slås op i indekset og parres med 'elefant' derinde. Goolge henter så alle siderne, der står under det ord. Det vil sige, det gør Google nemlig ikke alligevel af gode grunde.
Der er sikker mange tusinde sider med det ord, så det er slet ikke til at overkomme. Google ser faktisk kun på de cirka tusinde første i bunken. Den skriver måske, at der er 13.234 hits. men du får aldrig dem alle sammen at se. Faktisk vises du kun de ti første og måske får du kun links til de 10 næste sider i bunden. Det er 10 gange 10 = 100 sider. Ingen gider glo alt det igennem. Derfor må Google sortere resultatet efter relevans.
Meget er godt. Endnu mere er meget værre.
I gamle dage, hvilket i denne sammenhæng er cirka før 2000, var det meste af logikken noget i retning af dette: Hvis en side har nøgleordet i sin tekst mange gange og også har det i overskrifter og tilmed har det nævnt i sin title-tag (Overskriften i selve browserens vindue) og samtidigt bruger det i de meta-tags, som brugeren ikke kan se, men er forbeholdt søgemaskinerne selv og endda bruger det mange gange, så er siden meget relevant for nøgleordet.
Havde du en side om elefanter, så var det bare om at stoppe 'elefant' ind alle steder, det var muligt. Den med flest elefanter kom øverst på søgelisten. Helt klar begyndte teksten at blive ulæselig for mennesker. Man begyndte da at skjule tekst (for eksempel så simpelt som at bruge hvid tekst på hvid baggrund), der indeholdt ordet hundredvis af gange, 'elefant elefant elefant….'. Søgemaskinerne åd det råt og kvaliteten af en søgning afhang ikke af relevans, men af evnen hos webmasteren til at gentage det rigtige ord til hudløshed. Der er stadig mange metoder i omløb, der forsøger at udnytte denne svaghed. Begrebet efteruddannelse hersker ikke blandt alle internettets aktører.
Google dukkede da op med et nyt koncept . De mente at mennesker var de bedste til at bedømme kvalitet og relevans. Imidlertid lå det dem fjernt at hyre en skov af mennesker, der skulle holde øje med robotternes arbejde. I stedet sagde man: Det, der kendetegner en god side, er at nogen gider linke til den. Jo flere, der linker til en side, jo bedre må den være. På den måde kunne internettets brugere være med til at 'stemme' på de gode sider.
Man opfandt en matematisk formel, der angiver en sides såkaldte PageRank som en talværdi, der afhænget af den selvsamme PageRank, som sider, der linker til den har, der igen afhænger af den PageRank sider, der linker til dem har osv. osv. Et kæmpe regnearbejde, der kører hele tiden hos Google. Alle sider (ikke kun start- og velkommensider) får tilegnet sig en PageRank værdi eller blot PR i daglig tale. Når vi så søger på vores 'elefant' så bliver siderne hentet fra indekset og sorteret efter deres PR værdi, så den mest link-populære side kommer øverst. Bemærk at vi taler om sider og ikke hele websteder.
En smuk og demokratisk ordning kunne man sige. Men den blev straks udnyttet. Man oprettede blot falske websteder, der osede links i retningen af ens eget websted, man indgik i lysky samarbejder med andre webmastere og rålinkede mellem hinanden. Tusindvis af ubrugelige webkataloger, der blot er kopier af hinanden, skød op. Nu var det godt at gentage både ord og links. Søgekvaliteten blev ikke bedre.
Det gode selskab.
Googleopdateringen Florida november 2003 blev dødsstødet til mange af disse metoder. Man var begyndt at sætte ind mod ordgentagelsen. Brugte man et ord for tit, røg man ned af listen. Det ramte uskyldige, der som en naturlig del af deres indhold hyppigt anvendte bestemte ord. Meta-tags mistede betydning, overskrifter mistede betydning osv. Passede man ikke på, kunne man havne i gruppen af søgemaskinespammere. Google optimering handlede nu også om at undgå, at havne i fælden som uskyldig.
Florida tog sammenlinkningen et trin videre. Google krævede nu for at et link skulle tælle med, at det kom fra en side, der kunne betegnes som en autoritet. Det vil sige at det skulle være en side som usædvanligt mange linkede til eller som selv linkede ud til udsædvenligt mange inden for et givet emne. Google skulle angiveligt føre et særligt indeks for autoriteter på forskellige søge ord, som desværre ikke opdateres mere end nogle få gange om året.
Udbygninger af dette har siden tilført, at links fra sider med samme tema som vores egen side til vores side, tæller mere og endda lidt ekstra, hvis nøgleordet er med i linkteksten. Links er ikke længere ligestillede eller lige relevante.
GB samler al informationen op i indekset, PR udregnes løbene for alle sider i indekset, men den egentlige placering bestemmes først ved selve søgningen. Det kaldes LocalRank. Når der søges på vores 'elefant', så hentes siderne ud fra indekset i deres PR orden. Men nu sammenlignes siderne indbyrdes for relevans i teksten og for relevansen i de indgående links.
De udvalgte sider kæmper nu om pladsen indbyrdes. Det ses tydeligt i resultatlisterne, derved at en side med lavere PR sagtens kan skubbe en side med højere PR ned ad listen, hvis den har en bedre kvalitet i sine links, har ramt det søgte tema og ikke indeholder spam.
Har ramt det søgte tema?
Hvad er nu det for noget med et tema? Handler det ikke blot om konkrete nøgleord? Jo, de har vægt lidt endnu og måske især på ikke-engelsksprogede sider.
Der er flere projekter, der arbejder på at uddrage meningen med menneskelig kommunikation. Det er en meget svær opgave,
men der er tegn på at Google allerede har sat noget af det i drift.
En af metoderne er et Latent Semantisk Indeks (LSI.)I LSI bruges noget hæftigt matematik til at give point til ords indbyrdes relationer. Det lyder klogt, men går ud på at Google gennem sin rejse rundt på hele nettet, kan se, hvilke ord, der oftes optræder sammen og hvilke, der ikke gør det. Søger man på et, to, tre ord eller flere, så kan Google gætte på, hvad det underliggende tema er for søgningen og give mere relevante resultater.
Hvis for eksempel ordet 'skrivebord' optræder ofte sammen med 'kontorstol' og 'kontormøbler' på mange sider, så vil Google binde dem sammen. Har du en webside, der handler om skriveborde og du husker at omtale kontorstole på samme side, så vil du få ekstra points for indgåendelinks fra sider, der omhandler begrebet kontormøbler, hvis nogen søger på skrivebordet. Med andre ord tæller nøgleord med, der ikke direkte indgåer i søgningen, men som er beslægtede med nøgleordene ud fra Googles erfaring.
Systemet arbejder ikke med faste regler, men lærer undervejs. Det system kan også misbruges, men det kræver et lidt højere abstraktionsniveau af udøverne.
Vi ved hvem du er - og hvad du søger
Oven i LSI systemer, arbejder man også med sociale netværk. Man vil få søgere med specielle interesseområder til at
anbefale sider til hinanden. Da disse søgere logger ind og opgiver demografiske fakta om sig selv (køn, alder, lokalitet osv.),
kan søgemaskinen kigge med over skulderen og supplere sine indeks med værdifuld viden om, hvilke sider der reelt er hits for bestemte typer
brugere eller samfundsgrupper.
Det stopper ikke der. Google tilbyder nu at lave gratis trafikanalyse for websteder. Det betyder, at de nu også kan følge søgerne på deres vej rundt på internettet. Hvis Google for eksempel har fundet et relevant link til en søger, så vil det kendetegnes ved, at han ikke kommer tilbage til Google lige med det samme igen. Der kan dog være andre årsager til at hun ikke kommer tilbage. Ved at at spore trafikken, kan Google nemmere afgøre, om de har fundet et godt link frem ved søgningen.
Fokus på research og tekster
Ved fremtidens optimering - og fremtiden begyndte for et par sekunder siden - flyttes fokus altså fra programmerings tricks og
letkøbte nøgleords fiduser. En optimerings ekspert skal fremover være i stand til at skrive og analysere tekster.
Yderligere skal et websteds konkurrenter og naboer på nettet indgå i analysearbejdet, så man kan ramme temaet,
men alligevel træde frem af mængden.
Betydningen af tekstindholdet kan også ses af, at der i øjeblikket kopieres eller rettere stjæles tekststykker eller hele tekster fra godt placerede sider og anbringes på sider, der vil snyde sig frem. Google har erklæret at kun den originale tekst tæller for dem. Men det kører ikke helt så godt for dem i skrivende stund at finde ud af, hvilken tekst, der er den originale. På det punkt er Yahoo! og MSN Search mere pålidelige. Men de skal nok finde ud af det - så brug ikke tid på det. Vær original - lav original tekst.
Det er bestemt ikke hele historien om Google eller om søgemaskiner i det hele taget. Men det har forhåbentligt givet et indblik i, hvad det er for parametre, man skal se på, hvis man stå sig godt med GoogleBot og dens kolleger.
Ole klintebæk
Rev.: April 2006
Læs også artiklerne:
Søgemaskineoptimering - Hvad er det?
og
Hvorfor er målet for søgemaskineoptimeringen Top Ti?
ARTIKEL