Przejdź do głównej zawartości

Korpus Współczesnego Języka Polskiego: KWJP

Zrównoważony i reprezentatywny korpus polszczyzny pisanej obejmujący teksty z lat 2011-2020. Korpus jest podzielony na trzy główne gatunki: fikcja (powieści i opowiadania), fakt (książki niefikcjonalne, czasopisma tematyczne) i publicystyka (prasa informacyjna: dzienniki i tygodniki ogólnopolskie i regionalne).

Opis

Strona: www.kwjp.pl

Znakowanie: lematyzacja, znaczniki morfosyntaktyczne, rozbiory składniowe: zależnościowe i składnikowe, jednostki nazewnicze.

Jednostka odpowiedzialna za korpus: Instytutu Podstaw Informatyki PAN

Wielkość korpusu: 100 milionów segmentów (korpus zrównoważony) / 1,43 mld segmentów (korpus pełny)

Czas powstania: 2021-2023

Publikacja

W. Kieraś, M. Marciniak, M. Łaziński, M. Woliński, K. Bojałkowska, W. Eźlakowski, Ł. Kobyliński, D. Komosińska, K. Krasnowska-Kieraś, M. Rudolf, A. Tomaszewska, J. Wołoszyn, N. Zawadzka-Paluektau: Korpus Współczesnego Języka Polskiego. Dekada 2011–2020, Język Polski, 2024. link

@article{kieras:etal:2024:kwjp,
author = "Kieraś, W. and Marciniak, M. and Łaziński, M. and Woliński, M. and Bojałkowska, K. and Eźlakowski, W. and Kobyliński, Ł. and Komosińska, D. and Krasnowska-Kieraś, K. and Rudolf, M. and Tomaszewska, A. and Wołoszyn, J. and Zawadzka-Paluektau, N.",
title = "{K}orpus {W}spółczesnego {J}ęzyka {P}olskiego. {D}ekada 2011–2020",
journal = "Język Polski",
year = "2024",
doi = "10.31286/JP.001055"
url = "https://jezyk-polski.pl/index.php/jp/article/view/1062",
}