Semantiniai daigai
Posted by neziniukas on May 14, 2008

Kaip žinia, internetas be paieškos - tai tarsi milijonai knygų, suverstų į krūvą, kitaip sakant - jokios naudos. Informacijos paieška, analizė bei interpretacija - tai funkcijos, kurių kokybė gali “apversti pasaulį“. Ir vienas tokių reiškinių - semantinis tinklas, apie kurį rašiau “Interneto ateitis - Semantinis tinklas“.
Šiandien yra ta linksma diena, kai sužinojau, kad nuo teorijos ir kol kas nepanaudojamų dalykų, Semantinis tinklas jau žengia pirmus žingsnius arčiau mūsų - vartotojų. Tai - Powerset projektas, kuris startavo šį pirmadienį, gegužės 12 d.
Tai projektas, nuo pat pirmų valandų sulaukęs didelio susidomėjimo ir diskusijų - ar jis konkuruos su google, kas pirmas jį “suvalgys“ ir t.t. Taigi - kas tai?
Nepasakant nieko, tai Powerset yra paieškos sistema, kuri “patogiau“ ieško informacijos wikipedijoje ir freebase duomenų bazėse.
Tačiau skirtumas yra - ši paieška ieško informacijos ne tik antraštėse ir pagal raktinius žodžius, tačiau taip pat pagal teksto kontekstą. Geriausiai tai iliustruoti pavyzdžiu. Wikipedijoje užklausus “Lithuania“ - viskas tvarkoje, NATO - taip pat gauname ko prašom. Bet į užklausą “Lithuania and NATO“ - nieko negauname. Power set užklausoje atsiranda papildomi loginės reikšmės “joined“ (įstojo) bei „reflected“ (išreiškė? atspindėjo?) - ir turime stojimo į NATO datą ir kitą informaciją . Ir įdomiausia, kad galima rašyti ne tik tikslias sąvokas, bet ir panašias, kaip pvz vietoj „Vytautas burned castles“ tinka ir „ Lithuanians destroyed (ar demolished) castles ir pan. Taigi - sistema naudojasi kontekstu ir kitais semantikos elementais.

Taip pat yra labai patogu ieškoti pačiame wikipedijos straipsnyje - dešinėje pusėje pateikiama nemažai loginių teiginių, pagal kuriuos paieška tampa daug greitesnė.
Kol kas šis projektas apima nors ir didžiules, bet tik dvi duomenų bazes - Wikipedia ir Freebase. Todėl negalima tikėtis, kad elementari užklausa duos daugiau ir tikslesnių atsakymų nei google. Tačiau įrašius “Lithuanians burned castles“ - google atsiliko :)) Taip pat su lietuvių kalba ne kas.
Taigi - semantiniai daigai jau kalasi, lauksim naujų :)