sobota 18. října 2008

Netextové vyhledávání

Na webu se objevila revoluční služba ve vyhledávání informací, konkrétně se jedná o vyhledávání obrázků na základě jejich podobnosti. Pro někoho se to může zdát jako ne příliš zajímavé, ale uvědomme si, že doposud byly všechny informace vyhledávány textově – a to i zmíněné obrázky za pomoci jejich textových popisků. S rostoucí rychlostí internetu se ale do popředí dostávají namísto textových informací informace grafické. Představte si situaci, kdy máte obrázek, ale nevíte co je na něm, nebo jej máte ve špatné kvalitě a potřebujete jej v kvalitě lepší. Navíc máte díky této službě v ruce skvělou zbraň jak zkontrolovat, jestli někdo vaše snímky nelegálně nepoužívá na svém webu. Programy, které se touto službou zabývají, jsou například:

MUFIN (Multi-Feature Indexing Network) – český projekt. Jeho cílem je přinést nové řešení netextového vyhledávání. Jde o rozsáhlou databázi obrázků, ve kterých je možné vyhledávat podle obsahu. Projekt nyní pracuje s více než padesáti miliony obrázků, brzy jich bude dvakrát tolik. Celá databáze má pomoci vyřešit problém vyhledávání ve velkých databázích obsahujících netextové prvky. Na velkém vzorku dat výzkumníci hledají cestu, jak přinést světu systém vyhledávání, který začíná uživatelům povážlivě chybět. Ze zkušebního vyhledávání je zřejmé, že vyhledávání je skutečně relevantní. Způsob založený na podobnosti obrázků je zdá se správnou cestou.
Pavel Zezula k projektu poznamenává: "Co se týče komerčního využití, mluvíme s řadou organizací, ale konkrétní vlastní nasazení, které by se dalo zveřejnit, zatím neexistuje. Co je možná nutné zdůraznit je, že MUFIN je univerzální vyhledávací stroj schopný pracovat pro libovolná data porovnávaná metrickou funkcí podobnosti. Demonstrační aplikace na obrázcích má jen ukázat jednu možnost, že to funguje a je schopno zpracovávat velké objemy dat (škálovatelnost)." To, že je projekt na světové úrovni, ukazuje i článek na serveru Msearchgroove, kde je MUFIN kladně hodnocen.
A jak je to se zahraniční konkurencí projektu MUFIN? Co se týče vyhledávání mezi obrázky, Pavel Zezula zmínil následující služby:
TILTOMO – stejně jako MUFIN pracuje s testovací databází obrázků z Flickeru, umí vyhledat fotku s podobnou barevností nebo texturou. Stránka slouží hlavně k testování vyhledávacích algoritmů pro použití ve vyhledávání podobností mezi obrázky.
ALIPR – služba pro tagování fotek, na základě sesbíraných dat je možné vyhledávat mezi obrázky. Jde také o projekt, který spadá pod univerzitu, tentokrát jde o Penn State v USA. Profesoři LI a WANG se problematikou zabývají více než 10 let.
ImBrovse – umožňuje vyhledávat v obrázcích podle několika různých parametrů. Tento vyhledávač podle zkoušek dobře rozeznává tvary v obrázcích a dokáže najít opravdu podobné obrázky. Databáze jich obsahuje více než 700 tisíc. Projekt byl bohužel před několika lety ukončen, což vylučuje případné použití nových poznatků v praxi.
Matton – jedná se o databázi volně použitelných snímků (royalty free). I zde je možné použít netextové vyhledávání mezi obrázky, které funguje hlavně díky rozdělení snímků do kategorií a zadání parametrů snímku.“1
„TinEye, tento nový vyhledávač obrázků, založený na Idée technologii, má prozatím v indexu asi 487 miliónů obrázků, což je přibližně dvanáctkrát méně, než kolik indexuje Google. Prozatím se TinEye nachází ve fázi veřejného beta testování, pro vyzkoušení se musíte nejprve zaregistrovat a následně vyčkat na její schválení.“ 2

(Jakub Česák)
Zdroje:
Share/Save/Bookmark




Žádné komentáře:

Okomentovat