PARTNERZY PORTALU partner portalu wnp.pl partner portalu wnp.pl
Menu

wnp.pl - portal gospodarczy

Szukaj

Wyszukiwarka Nekst uporządkuje polski internet

Autor: PAP
10-01-2014 07:49

Szacuje się, że w polskim internecie jest teraz około miliarda polskojęzycznych dokumentów. Dane te porządkują i analizują twórcy polskiej semantycznej wyszukiwarki internetowej Nekst. System pozwolić ma na precyzyjniejsze przeszukiwanie polskich tekstów.

Nad wyszukiwarką pracuje zespół z Instytutu Podstaw Informatyki PAN w Warszawie, a także z Politechniki Wrocławskiej. Badacze chcą do czerwca tego roku zeskanować w sumie 500 mln dokumentów (tekstów - m.in. artykułów czy plików pdf), a więc połowę polskiego internetu. Wtedy też Nekst ma być udostępniony użytkownikom. Z czasem badacze chcą zeskanować i na bieżąco aktualizować dane o wszystkich polskich tekstach w internecie.
"Nawet Google czy Yahoo, przy całej swojej potędze, prawdopodobnie nie mają zebranego całego polskiego internetu" - przyznaje kierownik projektu, prof. Jacek Koronacki, dyrektor IPI PAN. Szacuje, że wyszukiwarki te gromadzić mogą np. tylko co piąty dokument po polsku.

Na razie twórcom polskiej wyszukiwarki udało się zebrać 160 mln polskojęzycznych dokumentów, a więc ok. 16 proc. polskiego internetu. Jak zaznacza w rozmowie z PAP jeden z twórców wyszukiwarki, dr Dariusz Czerski z IPI PAN, problem nie leży w przechowaniu na serwerach instytutu surowych tekstów. Skompresowane zajmują one ok. 3 terabajtów, czyli zmieściłyby się na trzech niedużych przenośnych dyskach twardych. Jednak teksty te należy na bieżąco opisywać i uporządkować, aby można je było przetwarzać dla potrzeb wyszukiwania.

Polska wyszukiwarka będzie działała według całkiem innych algorytmów niż największe wyszukiwarki międzynarodowe. "Te wyszukiwarki nie mają mechanizmów, które naśladowałyby rozumienie języka" - opowiada prof. Koronacki i podkreśla, że Nekst będzie pierwszą w Europie tak dużą wyszukiwarką semantyczną dla narodowego języka.

Nekst nie będzie wyszukiwała na stronie jedynie ciągu znaków - słów kluczowych, ale raczej analizować będzie gromadzone teksty pod kątem najczęściej pojawiających się w nich istotniejszych słów i wyrażeń wielosłownych (np. fraz rzeczownikowych). Dzięki temu wyszukiwarka może "wywnioskować", o czym jest dany tekst i jak najskuteczniej go zaklasyfikować. "Musimy umieć budować mechanizmy rozumienia języka, które zdecydowanie różnią się od inżynierii dla języka angielskiego. Musimy zwłaszcza umieć uwzględniać fleksję i swobodny szyk zdania" - wyjaśnia prof. Koronacki.

KOMENTARZE (0)

Artykuł nie posiada jeszcze komentarzy! Twój może być pierwszy. Wypowiedz się!

SUBSKRYBUJ WNP.PL

NEWSLETTER

Najważniejsze informacje portalu wnp.pl prosto do Twojej skrzynki pocztowej

Wnp.pl: polub nas na Facebooku


Wnp.pl: dołącz do nas na Google+


POLSKA I ŚWIAT

31 072 ofert w bazie

POLECANE OFERTY

587 699 ofert w bazie

POLECANE OFERTY

6 070 ofert w bazie

2 782 262 ofert w bazie


397 662 ofert w bazie

GORĄCE KOMUNIKATY

Wyszukiwanie zaawansowane
  • parking
  • bankiet
  • catering
  • spa
  • klub
  • usługi
  • rekreacja
  • restauracja
467 ofert w bazie

PARTNER

  • partner serwisu

POLECAMY W SERWISACH GRUPY PTWP

Drodzy Użytkownicy!

W związku z odwiedzaniem naszych serwisów internetowych przetwarzamy Twój adres IP, pliki cookies i podobne dane nt. aktywności lub urządzeń użytkownika. Jeżeli dane te pozwalają zidentyfikować Twoją tożsamość, wówczas będą traktowane jako dane osobowe zgodnie z Rozporządzeniem Parlamentu Europejskiego i Rady 2016/679 (RODO).

Administratora tych danych, cele i podstawy przetwarzania oraz inne informacje wymagane przez RODO znajdziesz w Polityce Prywatności pod tym linkiem.

Jeżeli korzystasz także z innych usług dostępnych za pośrednictwem naszych serwisów, przetwarzamy też Twoje dane osobowe podane przy zakładaniu konta, rejestracji na eventy, zamawianiu prenumeraty, newslettera, alertów oraz usług online (w tym Strefy Premium, raportów, rankingów lub licencji na przedruki).

Administratorów tych danych osobowych, cele i podstawy przetwarzania oraz inne informacje wymagane przez RODO znajdziesz również w Polityce Prywatności pod tym linkiem. Dane zbierane na potrzeby różnych usług mogą być przetwarzane w różnych celach, na różnych podstawach oraz przez różnych administratorów danych.

Pamiętaj, że w związku z przetwarzaniem danych osobowych przysługuje Ci szereg gwarancji i praw, a przede wszystkim prawo do sprzeciwu wobec przetwarzania Twoich danych. Prawa te będą przez nas bezwzględnie przestrzegane. Jeżeli więc nie zgadzasz się z naszą oceną niezbędności przetwarzania Twoich danych lub masz inne zastrzeżenia w tym zakresie, koniecznie zgłoś sprzeciw lub prześlij nam swoje zastrzeżenia pod adres odo@ptwp.pl.

Zarząd PTWP-ONLINE Sp. z o.o.