Przejdź do głównej zawartości

· 1 min aby przeczytać
Witold Kieraś

Udostępniliśmy niedawno pierwszą publiczną wersję korpusu PAWUK, czyli aktualizowanego codziennie korpusu internetowego języka ukraińskiego. Dane gromadzone są w korpusie od kwietnia 2022 r. i pochodzą zarówno z ukraińskich serwisów internetowych, jak i z wybranych sieci społecznościowych. Więcej szczegółów na temat znakowania korpusu i możliwości jego przeszukiwania można znaleźć na jego stronie w zakładce About.

PAWUK zawiera obecnie ponad 800 milionów segmentów i powiększa się o 1-1,5 mln segmentów na dobę. Korpus jest cały czas we wstępnej fazie rozwoju i nie wszystkie funkcje jeszcze działają. Zachęcamy do testowania!

· 1 min aby przeczytać
Witold Kieraś

Serwis Korpusomat.pl istnieje już od kilku lat, ale jednym z najczęściej zadawanych przez jego użytkowników pytań dotyczyło możliwości przetwarzania tekstów napisanych w innych językach niż polski. W związku z tym udostępniliśmy niedawno wstępną wersję zupełnie nowego serwisu Korpusomat.eu, których obsługuje aktualnie 30 języków (w tym również polski). Sam proces przetwarzania i anotowania tekstów różni się dość istotnie od tego, który został zaimplementowany na stronie Korpusomat.pl, interfejs obu serwisów jest jednak bardzo podobny. Korpusomat.eu wykorzystuje do przetwarzania dwie znane biblioteki programistyczne spaCy oraz Stanza, oferujące modele do znakowania tekstów w różnych językach. Serwis jest we wczesnym stadium rozwoju, stopniowo będziemy zatem dodawać obługę kolejnych języków, jak również nowe funkcje, których obecnie brakuje.

Korpusomat.eu postaje w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN w ramach projektu CLARIN.