Autor: Udi Manber, VP Engineering, Search Quality

Kvalita vyhledávání (Search Quality) je název týmu zodpovědného za hodnocení a řazení výsledků vyhledávání Google (tzv. ranking). Náš úkol je jasný: pársetmilionkrát za den lidé zadávají na Google dotazy a Google musí během zlomku sekundy rozhodnout, které z miliard stránek na internetu jim má zobrazit – a v jakém pořadí. Poslední dobou se zabýváme i jinými věcmi. O tom však někdy příště.

Na to, jak často a kolika lidmi je hodnocení (neboli ranking) na Google využíváno, se o něm ví překvapivě málo. Je to zcela naše chyba, a to záměrně. Abychom byli upřímní, tak to, co děláme, držíme raději pod pokličkou. Existují pro to dva důvody: konkurence a zneužití. Konkurence je jako důvod zcela jasná. Žádná společnost se nechce o své tajné recepty dělit se svými konkurenty. Pokud jde o zneužití, tak v případě, že bychom naše vzorce pro hodnocení příliš zpřístupnili, bylo by pro lidi snadnější systém obcházet. Zabezpečení prostřednictvím utajování není nikdy nejsilnějším opatřením a nespoléháme se jenom na ně, ale dokáže zabránit velkému množství pokusů o zneužití.

Detaily hodnotících algoritmů jsou v mnoha ohledech korunovačními klenoty společnosti Google. Jsme na ně velice pyšní a velmi si je chráníme. Podle některých odhadů byl přímo do jejich vývoje investován přes jeden tisíc let v přepočtu na programátora/vývojáře a rychlost inovací se nijak nezpomaluje.

Avšak naprosté utajení není ideální a tento článek je součástí obnovené snahy o trochu větší otevřenost než v minulosti. Budeme se snažit vás pravidelně informovat o nových věcech, vysvětlovat staré věci, radit, přinášet novinky a diskutovat. Dovolte, abych začal několika obecnými informacemi o naší skupině. Další příspěvky na blogu budou následovat.

Nejdřív bych se měl představit. Jmenuji se Udi Manber a jsem technický viceprezident společnosti Google zodpovědný za kvalitu vyhledávání. Ve společnosti Google pracuji přes dva roky a technologiemi vyhledávání se zabývám téměř 20 let.

Srdcem skupiny je tým, který pracuje na základním hodnocení. Hodnocení je obtížné, obtížnější, než si většina lidí uvědomuje. Jedním z důvodů je to, že jazyky jsou ze své podstaty nejednoznačné a dokumenty se neřídí žádnými soubory pravidel. Ve skutečnosti neexistují žádné normy, jak sdělovat informace, takže musíme být schopní rozumět všem webovým stránkám, napsaným kýmkoli a z jakéhokoli důvodu. A to je jen polovina problému. Musíme také rozumět vyhledávacím dotazům, které lidé zadávají a které se průměrně skládají z méně než tří slov, a skloubit je s našimi znalostmi všech dokumentů. Nemluvě o tom, že různí lidé mají různé potřeby. A to všechno musíme zvládnout za pár milisekund.

Nejznámější součástí našeho hodnotícího algoritmu je PageRank, který vyvinuli Larry Page a Sergey Brin, zakladatelé společnosti Google. PageRank se dnes stále využívá, ale je teď součástí mnohem rozsáhlejšího systému. Mezi ostatní součásti patří jazykové modely (schopnost pracovat s frázemi, synonymy, diakritikou, pravopisnými chybami atd.), modely vyhledávacích dotazů (nejde jen o jazyk, ale o to, jak jej dnes lidé používají), časové modely (pro některé dotazy je nejlepším výsledkem 30 minut stará stránka, zatímco pro jiné je lepším výsledkem stránka, která je prověřená časem) a personalizované modely (ne všichni chtějí to samé).

Další tým v naší skupině je zodpovědný za vyhodnocování toho, jak se nám daří. To se dělá mnoha různými způsoby, ale cíl je vždy stejný: zlepšit kvalitu služby pro uživatele. Není to hlavní cíl, je to jediný cíl. Probíhají automatická vyhodnocování každou minutu (abychom se ujistili, že vše funguje správně), pravidelná vyhodnocování naší celkové kvality a hlavně vyhodnocování konkrétních vylepšení algoritmů. Když vývojář dostane nový nápad a vyvine nový algoritmus, důkladně tento nápad testujeme. Máme tým statistiků, kteří posoudí všechna data a určí, jak je nový nápad hodnotný. Každý týden se scházíme (někdy i dvakrát týdně), abychom tyto nové nápady probrali a schválili spuštění nových vylepšení. V roce 2007 jsme spustili přes 450 nových vylepšení, průměrně 9 za týden. Některá z těchto vylepšení jsou jednoduchá a jasná – například jsme opravili způsob zacházení s akronymy ve vyhledávacích dotazech v hebrejštině (v hebrejštině se akronymy vyjadřují znakem (") před posledním znakem, takže IBM se zapisuje IB"M), zatímco jiná jsou velmi komplikovaná – například v lednu jsme provedli velmi výrazné změny v algoritmu pro PageRank. Většinou hledáme způsoby, jak vylepšit relevantnost, ale pracujeme také na projektech, jejichž jediným účelem je algoritmy zjednodušit. V jednoduchosti je síla.

Jednou z klíčových oblastí, na které se poslední dva roky zaměřujeme, je mezinárodní vyhledávání. To znamená všechny jazyky, kterými se mluví, nikoli jen ty hlavní. Loni jsme například provedli zásadní vylepšení v ázerbájdžánštině, kterou mluví asi 8 milionů lidí. Za posledních pár měsíců jsme spustili kontrolu pravopisu v estonštině, katalánštině, srbštině, srbochorvatštině, ukrajinštině, bosenštině, lotyštině, tagalštině, slovinštině a perštině (farsí). Vytvořili jsme síť lidí na celém světě, kteří nám poskytují zpětnou vazbu, a máme velkou skupinu dobrovolníků ze všech částí Google, kteří mluví různými jazyky a pomáhají nám zlepšovat vyhledávání.

Další tým se věnuje novým funkcím a novým uživatelským rozhraním. Silné auto musí mít silný motor, ale to nestačí. Auto také musí být pohodlné a snadno ovladatelné. Uživatelské rozhraní vyhledávání Google je úplně jednoduché. Velmi málo našich uživatelů někdy využilo naše stránky nápovědy a velmi dobře se bez nich obejdou (je to ale zajímavé čtení a pracujeme na jejich vylepšení). Když přidáváme nové funkce, snažíme se zajistit, aby byly pro všechny intuitivní a snadno použitelné. Jedna z nejviditelnějších změn, které jsme za poslední rok provedli, je univerzální vyhledávání. K dalším patří Google Notebook (služba pro ukládání a uspořádání zajímavostí, které najdete na internetu), Custom Search Engines (vlastní, přizpůsobitelné vyhledávání) a samozřejmě mnoho vylepšení služby iGoogle. Týmu pro uživatelská rozhraní pomáhá tým odborníků na použitelnost, kteří provádějí uživatelské studie a vyhodnocují nové funkce. Cestují po celém světě, a dokonce navštěvují lidi doma, aby viděli uživatele v jejich přirozeném prostředí (nebojte, nechodí neohlášení nebo nepozvaní!).

Existuje celý tým, který se soustřeďuje na boj se spamem a dalšími druhy zneužívání. Tento tým pracuje na různých problémech od skrytého textu po nerelevantní stránky plné nesouvislých klíčových slov, plus na mnoha dalších podvodných praktikách, které lidé používají, aby se v našich výsledcích vyhledávání umístili výše. Tento tým odhaluje nové trendy v používání spamu a snaží se jim přizpůsobovat a čelit. Stejně jako všechny ostatní týmy i tento tým funguje na mezinárodní úrovni. Skupina pro boj se spamem úzce spolupracuje s týmem pro službu Google Webmaster Central (Centrála Google pro webmastery), aby spolu mohli sdílet zasvěcené informace a také aby mohli naslouchat majitelům webových stránek.

Existují ještě další týmy věnující se konkrétním projektům. Naše organizační struktura je obecně velmi neformální. Lidé volně přecházejí mezi týmy a neustále vznikají nové projekty.

Jedním z klíčových aspektů vyhledávání je to, že očekávání uživatelů rychle rostou. Zítřejší vyhledávací dotazy budou mnohem obtížnější než ty dnešní. Stejně jako se podle Mooreova zákona každých 18 měsíců zdvojnásobí výpočetní rychlost, existuje skrytý nepsaný zákon, podle kterého se v krátkém čase zdvojnásobuje složitost našich nejobtížnějších vyhledávacích dotazů. Nelze to přesně měřit, ale všichni to cítíme. Víme, že nemůžeme usnout na vavřínech, ale musíme tvrdě pracovat, abychom se s tím vypořádali. Jak jsem již zmínil, budeme vás v dalších měsících informovat o novinkách v kvalitě vyhledávání, takže se máte na co těšit.



Původní článek pro Českou republiku zprostředkovala:

Marianna Marečková
Search Specialist Manager, Mountain View, CA, USA