pátek 2. května 2008

Robot Google se zkouší ponořit do hlubokého webu, zůstává ale na povrchu

Robot Google se nově pokouší prokutat do částí Internetu, které byly dosud vyhledávačům a tudíž i většině uživatelů skryty (Deep Web). Podívejme se, co může způsobit tento krok. Informace, jak to bude přesně fungovat, se podle zdrojů liší. Podle blogu Google budou cílem robota rozevírací formuláře, které se někde používají například pro zeměpisnou navigaci. Ovšem není jisté, že se uživatelé dostanou k úplně novým informacím.

Doplň, zadej, hledej...
Nepůjde ovšem jen o rozevírací seznamy. Robot Googlu začne zaškrtávat různá políčka a klikat na tlačítka. Do volných políček bude Google zkoušet vkládat slova, která našel na stránce a zkoumat, jaká bude odpověď serveru (takže vlastně bude generovat třeba vyhledávací dotazy).
Google prohlašuje, že stránky, k nimž se takto dostane, nejdřív porovná se svojí databází. Pokud narazí na rozdíl, bude se stránkou dále pracovat. Jak se dál takový obsah nebo stránka bude řadit ve výsledcích vyhledávání, to ale zatím není příliš jasné.
Co se stane v případě výsledků vyhledávání? Tady robot najde stránku, kterou téměř jistě v databázi nemá. Takto by množství stránek v databázi vyskočilo explozivně prakticky k nekonečnu, bez toho, že by se uživatelé dostali k nějakému novému obsahu, Google si to jistě nějak ošetří.
Robot nezahltí vyhledávání a zkusí jen slova přednostně se objevující na stránce. Výsledek bude prostě mix „běžného“ obsahu

Hluboký web: co všechno obsahuje?
Vypadá to tedy, že konkrétně tento krok asi žádný zvláštní význam mít nebude. Deep web výrazně objemem dat přesahuje to, co vyhledají vyhledávače (až tisíckrát).
Wikipedie popisuje i první pokusy vyhledávačů nějak indexovat tu část pavučiny, na kterou nevedou hyperlinky. Uvádí se zde pokus Yahoo Subscription v roce 2005, kdy bylo poprvé umožněno robotovi indexovat i obsah jinak určený jen předplatitelům. Zmíněn je zde také vyhledávač přímo specializovaný na přístup k deep web (ScienceGov) a další projekty tohoto druhu.
Do deep web se dá zařadit celá řada obsahu různého typu. Technické chyby, kdy je namísto hyperlinku použit formulář, nebo nějaký javascriptový či flashový fígl jsou jen jednou a nejspíš zanedbatelnou částí tohoto bezedného prostoru. Najdeme zde placené stránky, nebo obsah ve formátech, který vyhledávače nejsou schopny indexovat. K části deep webu by jistě rády získaly přístup vlády, hlavně když jde o aktivity skryté záměrně pro svůj kriminální obsah.
Kromě toho, že slušný robot by neměl indexovat data, kde si to uživatelé nepřejí, je velká otázka, zda by pak vyhledávač uživatelům mohl poskytnout lepší služby.
(Petr Mynařík)
Zdroj: www.lupa.cz

Žádné komentáře:

Okomentovat