Frekwencja n-gramów w tekstach polskich

Robert Wołosz
PTE BTK, Orosz Filológia Tanszék
e-mail: wolosz.robert@pte.hu

Znalezienie danych dotyczących frekwencji wyrazów w języku polskim nie stwarza większych problemów. Solidną podstawę takich badań stworzył wydany w 1990 roku Słownik frekwencyjny polszczyzny współczesnej¹, po którym ukazało się wiele prac dotyczących różnych odmian języka polskiego.² Znaleźć można również publikacje, które nie podają konkretnych danych liczbowych dotyczących wystąpienia podawanych słów języka polskiego, ale segregują słownictwo według częstotliwości wystąpień w grupy.³ Wydaje się, że nawiększym objętościowo opracowanym w ten sposób zbiorem są dane Słownika gramatycznego języka polskiego⁴. W internecie można znaleźć wiele list frekwencyjnych opracowanych na podstawie różnych źródeł dla języka polskiego⁵. Niewątpliwie wartość danych frekwencyjnych znacznie wzrasta, jeśli twórcy udostępniają również teksty, które były podstawą ekscerpcji.⁶

Rzadziej mnożna znaleźć informacje dotyczące częstotliwości występowania n-gramów w języku polskim.⁷ Celem niniejszej publikacji jest udostępnienie takich danych liczbowych. Niestety, do danych nie mogą być dołączone teksty, które były podstawą opracowania, ale autor gotów jest przeprowadzać (oczywiście bezpłatnie) kwerendy, które mogłyby służyć do badań naukowych.

Autor niniejszej publikacji od wielu lat gromadzi najróżniejsze teksty zapisane po polsku. Na ich podstawie opracował przed wielu laty wraz z firmą MorphoLogic opis fleksyjny polszczyzny. Badania te kontynuował w zespole kierowanym przez prof. Zygmunta Saloniego. Zespół ten stworzył Słownik gramatyczny języka polskiego, prace nad którym do dziś są kontynuuowane (z różnym natężeniem). Jest oczywiste, że opracowując opis fleksyjny, często konieczne jest weryfikowanie teorii z uzusem i temu służą zbierane teksty. Oczywiście sam uzus nie może być podstawą takiego opisu⁸, ale pozwala na uzupełnienie ewidentnych przeoczeń, które mogą być przeoczeniami słownikowymi (brak wyrazu) lub fleksyjnymi (brak którejś z form lub podana niepoprawna forma). Dane pochodzące z zebranych tekstów mogą mieć najróżniejsze zastosowania: edukacyjne, praktyczne, naukowe. Wystarczy wspomnieć choćby stworzoną przed kilku laty listę frekwencyjną wypowiedzeń polskich⁹.

Dane, wykorzystane w niniejszym opracowaniu, można podzielić na kilka grup, choć podział ten trudno uznać za konsekwentny.

Pisane po polsku teksty, które zostały wyekscerpcjonowane z książek oraz zawierających utwory literackie stron internetowych. Trafiły tu też blogi oraz teksty prawnicze (łączone w większe pliki diariusze sejmowe i senackie, teksty ustaw itp.) Wielkość tego zbioru to: 32312 plików, ok. 11,3 GB tekstów.
Teksty (głównie książki) tłumaczone na polski z języków obcych: 38618 plików, 19,5 GB tekstów.
Teksty z kilkunastu dzienników i tygodników polskich (łączone w większe pliki): 23104 pliki, 14,4 GB tekstów.
Inne: np. napisy do filmów (łączone w większe pliki), Wikipedia: 24677 plików, 3,8 GB tekstów.

Razem wykorzystanych plików było 118711, a wielkość opracowanych tekstów przekroczyła 49 GB. Analizowany zbiór składał się z blisko z 10 mld słów rozumianych technicznie jako ciąg liter i cyfr zapisany między znakami o wartości spacji. Dane odnoszące się do 1-gramów mogą być traktowane podobnie jak dane będące podstawą tradycyjnych słowników frekwencyjnych (oczywiście przed przeprowadzeniem lematyzacji zgromadzonego materiału).

Zebrane teksty zostały przygotowane do przeprowadzenia na nich dalszej analizy. Najpierw każdy tekst został podzielony na zdania (a dokładniej na wypowiedzenia). Użyto do tego programu własnego. Następnie usunięto wiele znaków, które miałyby wpływ na otrzymane wyniki. Najłatwiej pewnie sformułować to tak, że pozostawiono w tekście litery polskie i obce, cyfry oraz kilka innych znaków (np. $, %, &, *, +, - [jako łącznik], @, °, ±, ×, ÷, €). Wśród usuniętych była kropka, co niestety wiązało się z tym, że usunięto ją również z taich miejsc, gdzie pełniła funkcję litery, a nie znaku interpunkcyjnego (np. zapis p.n.e. zachowany został jako p n e).

Przy dzieleniu tekstu na n-gramy nie traktowano jako elementu tekstu znaku początku i końca wypowiedzenia. Ten fragment Lalki Prusa: „Może co wypijesz? Mam butelkę niezłego węgrzyna, ale tylko jeden cały kieliszek.” tak został opracowany w pliku zawierającym 3-gramy: może co wypijesz; mam butelkę niezłego; butelkę niezłego węgrzyna; niezłego węgrzyna ale; węgrzyna ale tylko; ale tylko jeden; tylko jeden cały; jeden cały kieliszek. Jak widać nie uznano za 3-gram ciagu słów: co wypijesz mam ani wypijesz mam butelkę. Nie ma wśród nich też zapisu: , może co (tu przecinek byłby symbolem początku wypowiedzenia), podobnie jak nie podano: cały kieliszek . (tu kropka byłaby symbolem zakończenia wypowiedzenia). Ponieważ jednak autor zestawienia uznał, że informacja o tym, iż dany n-gram pojawia się na początku lub na końcu wypowiedzenia może być istotna, podano również informacje zawiarające te dane. Tyle tylko, że nie traktuję samodzielnego wypowiedzenia , tak . jako 3-gram, ale pojawi się on na liście 1-gramów rozpoczynających i kończących wypowiedzenia. (Przy takim zapisie nie poznamy frekwencji pełnego wypowiedzenia tak, ale możemy to sprawdzić w pracy, do której dostęp podano w przypisie 9.)

Opracowane dane sortowano i sumowano identyczne wystąpienia. Przy sumowaniu danych zachowano informację nie tylko o tym, ile razy pojawił się dany element w analizowanych tekstach, ale podano rónież w ilu tekstach się pojawił. Zapis: „960787 82555 w ten sposób” oznacza, że 3-gram w ten sposób pojawił się 960787 razy w 82555 tekstach. Informacja tak podawana może wskazywać, że choć frekwencja danego elementu jest wysoka, to wcale nie musi być on uznany za typowy. Zob. np.: 2278 8 wśród 2335 gmin.

We wszystkich wyodrębnionych kategoriach sposób podawania danych jest identyczny i wynika z ich wielkości: 5000 rekordów o największej częstotliwości w danej kategorii można oglądać po kliknięciu w napis Top 5000, a resztę danych (które pojawiły się przynajmniej w 10 plikach) można ściągnąć po kliknięciu w napis w kolumnie ściągnij. Napis ten informuje o wielkości pliku wyrażonej w megabajtach i liczbie podanych rekordów. Wszystkie tak udostępnione pliki zostały wcześniej skompresowane archiwizerem 7-zip.¹⁰ Kolejność podawanych danych zależy od frekwencji wystąpień w analizowanych tekstach. W przypadku identycznej liczbie wystąpień o kolejności decyduje to, w jak wielu plikach dany element wystąpił. Jeśli tu też nie ma różnicy pomiędzy danymi, to o kolejności zadecyduje kolejność alfabetyczna znaków zapisanch w standardzie UTF-8.

Wśród wydenerowanych n-gramów można znaleźć takie, których frekwencja jest zaskakująco wysoka w stosunku do liczby plików, w których się pojawiły. Powodów może być wiele, np. powtarzająca się struktura haseł encyklopedycznych lub powtarzające się nazwy działów w dziennikach. Wydaje się, iż dane te zamiast wzbogacać naszą wiedzę o frekwencji n-gramów zniekształcają ją. Dlatego wprowadzono do analizy wartość q, która obliczna została dla każdego n-gramu.

Wartość q obliczana jest zgodnie z następującym wzorem: q = n/f², gdzie n = częstotliwość wystąpienia danego n-gramu, a f = liczba plików, w której n-gram przynajmniej jeden raz wystąpił. Wartość q, mająca wpływ na usuwanie wygenerowanych danych, podawana jest oddzielnie w tabelach dla każdego typu n-gramów.

N-gramy, które osiągnęły lub przekroczyły podaną wartość zostały usunięte z podawanych list. Tak np. nie znajdziemy na liście 3-gramów rakordu: 37222 145 gmina we francji, ponieważ wartość q dla niego wynosi 1,77, a podane zostały na niej te rekordy, których wartość q jest mniejsza niż 0,7.

W obecnej wersji podano następujące dane:

Listy frekwencyjne dla 1-, 2-, 3-, 4-, 5- i 6-gramów. W przypadku 6-gramów wygenerowano oddzielną listę, która nie zawierała danych pochodzących z Wikipedii.
Listy frekwencyjne dla 1-, 2-, 3-, 4-gramów pojawiających się na początku wypowiedzeń.
Listy frekwencyjne dla 1-, 2-, 3-, 4-gramów pojawiających się na końcu wypowiedzeń.

^{1. Wydany pod red. Zygmunta Saloniego Słownik frekwencyjny polszczyzny współczesnej. T. 1–2. Kraków, 1990. opracowany został na podstawie list frekwencyjnych publikowanych w latach 1974–1977. Autorami Słownika byli: Ida Kurcz, Andrzej Lewicki, Jadwiga Sambor, Krzytsztof Szafram i Jerzy Woronczak. W Słowniku tym wykorzystano również materiał z tomu: Zgółkowa, Halina: Słownictwo współczesnej polszczyzny mówionej. Lista frekwencyjna i rangowa. Poznań, 1983.}

^{2. Zgółkowa, Halina; Szymoniak, Krzysztof; Zgółka, Tadeusz: Słownictwo polskich tekstów rockowych. Listy frekwencyjne. T. 1–2. Poznań, 1992. // Zgółkowa, Halina; Zgółka, Tadeusz: Słownictwo współczesnej poezji polskiej: Listy frekwencyjne. T. 1–2. Poznań, 1992. // Zgółkowa, Halina: Słownictwo dzieci w wieku przedszkolnym w latach 2010-2015. Listy frekwencyjne. (1947- ) Poznań, 2016. // Ostrowska, Katarzyna: Słownictwo wybranych polskich reportaży książkowych (2004-2018). T. 1., Listy frekwencyjne. Kielce, 2023.}

^{3. Zob. np. Bartnicka-Dąbkowska, Barbara; Sinielnikoff, Roxana: Słownik podstawowy języka polskiego dla cudzoziemców. Warszawa, 1978. // Kurzowa, Zofia; Zgółkowa, Halina: Słownik minimum języka polskiego. Poznań, 1992.}

^{4. Wyd. I: Saloni, Zygmunt; Gruszczyński, Włodzimierz; Woliński, Marcin; Wołosz, Robert: Słownik gramatyczny języka polskiego. Warszawa, 2007, CD + 177 s. // Wyd. IV: Woliński, Marcin; Saloni, Zygmunt; Wołosz, Robert; Gruszczyński, Włodzimierz; Skowrońska, Danuta; Bronk, Zbigniew: Słownik gramatyczny języka polskiego, sgjp.pl, Warszawa, 2020. W słowniku tym wyróżniono następujące klasy frekwencyjne: 300, 2500, 8500, 20.000, 40.000, 75.000, 150.000 najczęstszych leksemów. Oznaczono też leksemy rzadsze z rozróżnieniem na te, które są potwierdzone w tekstach i te, często tworzone systemowo, dla których potwierdzenia nie znaleziono, ale potencjalnie istnieją.}

^{5. Zob. np. zasobynauki.pl/zasoby/listy-frekwencyjne-z-korpusow-tekstu,18459 // pl.wiktionary.org/wiki/Indeks:Polski_-_Najpopularniejsze_słowa_1-10000_wersja_Jerzego_Kazojcia // www.pawelmandera.com/2015/03/03/pl-subtlex-pl // pl.wiktionary.org/wiki/Indeks:Polski_-_Najpopularniejsze_słowa_1-2000}

^{6. Tak dzieje się rzadko. Np. Narodowy Korpus Języka Polskiego udostępnia (tylko) listę wykorzystanych w Korpusie książek i tekstów prasowych (przy tych ostatnich wskazuję na tytuł i rocznik). Zob. nkjp.pl}

^{7. zasobynauki.pl/zasoby/n-gramy-jezykowe,18469/datazip,133235/ // Zob. też: Ziółko, Bartosz; Skurzok, Dawid: N-Grams Model for Polish. DOI: 10.5772/16568. In: Ipšić, Ivo (ed.): Speech and Language Technologies. Rijeka, 2011. www.intechopen.com/chapters/16007}

^{8. W naszym zbiorze tekstów wyraz poszłem pojawia się częściej niż wyraz pisarzów (941 : 719). Jednak tylko ten drugi uważamy za poprawny – choć rzadko używany – w języku polskim.}

^{9. Wołosz, Robert: Lista frekwencyjna wypowiedzeń polskich. www.wolosz.hu/wypow_pol_freq.html}

^{10. www.7-zip.org/}

Częstotliwość n-gramów w tekstach polskich (wielkie litery zastąpiono małymi)

1. Dane zbiorowe

	zobacz	ściągnij	wartość q
1-gram	Top 5000	.7z (9 MB, 1.769.574 rekordy)	5
2-gram	Top 5000	.7z (166 MB, 33.599.984 rekordy)	1
3-gram	Top 5000	.7z (235 MB, 43.011.661 rekordów)	0.7
4-gram	Top 5000	.7z (139 MB, 22.632.635 rekordów)	0.4
5-gram	Top 5000	.7z (56 MB, 8.017.945 rekordów)	0.2
6-gram	Top 5000	.7z (19 MB, 2.432.876 rekordów)	0.101
6-gram (bez danych z Wikipedii)	Top 5000	.7z (16 MB, 2.181.101 rekordów)	0.101

2. N-gramy rozpoczynające wypowiedzenia

	zobacz	ściągnij	wartość q
1-gram	Top 5000	.7z (2 MB, 397.722 rekordy)	1
2-gram	Top 5000	.7z (17 MB, 3.445.158 rekordów)	0.8
3-gram	Top 5000	.7z (22 MB, 4.091.193 rekordy)	0.6
4-gram	Top 5000	.7z (15 MB, 2.470.828 rekordów)	0.4

3. N-gramy kończące wypowiedzenia

	zobacz	ściągnij	wartość q
1-gram	Top 5000	.7z (3,5 MB, 715.189 rekordów)	1
2-gram	Top 5000	.7z (22 MB, 4.320.046 rekordów)	0.8
3-gram	Top 5000	.7z (25 MB, 4.244.683 rekordy)	0.6
4-gram	Top 5000	.7z (15 MB, 2.311.942 rekordy)	0.4

Ostatnia aktualizacja: