🇭🇺 Magyar nyelvű változat / Hungarian version

Частотность состоящих из слов n-грамм в текстах на русском языке

Роберт Волош
Печский университет, Факультет гуманитарных наук, Кафедра русского языка
e-mail: wolosz.robert@pte.hu

70 лет назад вышел первый частотный словарь русского языка¹, за которым последовали на протяжении десятилетий более новые словари в бумажном варианте². Что касается характера публикации, в этом отношении кардинальные изменения произошли тогда, когда данные о частотности начали публиковать в электронном виде. В настоящее время самым известным и популярным источником материала является Национальный корпус русского языка (ruscorpora.ru). В 2011 г. из материалов Корпуса, насчитывавшего на тот момент почти 193 миллиона слов, были сгенерированы 1-, 2-, 3-, 4- и 5-граммы (из 6-грамм было представлено только 100 наиболее частотных), но несмотря на то что количество обработанных текстов возросло, информация об n-граммах не обновлялась 12 лет. Ситуация изменилась в октябре 2023 года, поскольку тогда же были опубликованы униграммы и биграммы, уже извлеченные из более обширного материала, состоящего из более чем 374 миллионов слов (https://ruscorpora.ru/page/corpora-freq/). К сожалению, качество новой обработки оставляет желать лучшего. В случае n-грамм с одинаковой частотой порядок их выдачи случайный, результаты приводятся не в алфавитном порядке. Кроме того, по сравнению с предыдущей изменилась структура подачи новых данных, что ставит новые задачи перед теми, кто регулярно пользовался более ранней версией.

На Кафедре русского языка Печского университета уже несколько лет ведется работа по сбору текстов на русском языке для различных образовательных и исследовательских целей. Корпус текстов, размер которого к настоящему времени превысил 650 тыс. файлов³, помогает сотрудникам и студентам кафедры в их научных исследованиях. Материал, полученный из различных источников, неизбежно содержит повторы. Самой сложной задачей подготовительного этапа было их устранение. Приведенные ниже n-граммы извлечены в результате обработки приблизительно 410 тыс. файлов. Данный корпус текстов по причине случайного отбора, включения переводов и преобладания born-digital текстов, не может конкурировать с выработанными в Национальном корпусе русского языка принципами отбора, однако в отношении только его объёма (3-, 4- и 5-грамм в 128 раз, 1- и 2-грамм в 66 раз больше, чем в НКРЯ) он может оказаться очень полезным для проведения различных исследований по морфологии, орфографии, стилистике, паремиологии, фразеологии, словообразованию. Кроме того, он может широко использоваться при изучении и преподавании языка.

Объем представленных в настоящее время данных является результатом обработки 412 185 файлов (около 301 Гб). Анализируемые тексты содержат 2 308 892 344 предложений, или 24 759 733 938 слов.⁴ Только самое частотное русское слово - и - встречается в представленном нами материале более чем в два раза чаще, чем общее количество слов Национального корпуса русского языка, используемых для выдачи n-грамм. Чтобы получить представление, о каком объёме идёт речь, можно сказать, что обработанный материал равен 144 000 томов Преступления и наказания.

Вследствие большого размера данных выдача результатов во всех категориях осуществляется следующим образом: 5 тыс. наиболее частотных результатов выдаётся сразу, результаты, встречающиеся мин. в 10 различных текстах, рекомендуются для скачивания в виде архива.⁵ Порядок выдачи результатов определяется частотностью; в случае одинаковой частотности порядок определяется количеством текстов, в которых встречается данный элемент. Если оба значения равны, порядок выдачи определяется алфавитом кодировки UTF-8.

Извлечению n-грамм предшествовала разбивка текстов на предложения, поскольку мы посчитали важным во время работы не допускать пересечения предложений. Это означает, например, что из следующего текста: Разве я способен на это? Разве это серьезно? Совсем не серьезно. были извлечены следующие биграммы: Разве я; я способен; способен на; на это; Разве это; это серьезно; Совсем не; не серьезно. Очевидно, что среди них нет это Разве и серьезно Совсем. Соблюдение границ предложения нерелевантно только для униграмм.

При изучении сгенерированных данных было замечено, что иногда n-граммы, характеризующиеся необычайно высокой частотностью, встречаются в относительно небольшом количестве различных файлов. Мы посчитали, что это явление искажает информацию о частотности. Поэтому мы ввели величину q, которая была вычислена для каждой n-граммы, и в случае различных типов n-грамм из опубликованного списка были исключены те n-граммы, которые достигли или превысили значение q.

Для расчета величины q использовалась следующая формула: q = n/f², где n = частота появления n-граммы, f = количество файлов, в которых данная n-грамма встретилась хотя бы один раз. Значение q указывается отдельно для каждой таблицы.

В настоящее время доступны следующие данные:

Частотные списки 1-, 2-, 3-, 4-, 5- и 6-грамм – не различаются прописные и строчные буквы, а также буквы е и ё⁶.
Частотные списки 1-, 2-, 3-, 4-, 5- и 6-грамм – прописные и строчные буквы различаются.
Частотные списки 1-, 2-, 3-, 4-, 5- и 6-грамм, начинающих предложение – не различаются прописные и строчные буквы, а также буквы е и ё.
Частотные списки 1-, 2-, 3-, 4-, 5- и 6-грамм, завершающих предложение – не различаются прописные и строчные буквы, а также буквы е и ё.

Перспективы развития

Публикация статистических данных, касающихся n-грамм, в текстах с лемматизацией.

^{1. Josselson, Harry H.: The Russian Word Count. Detroit, 1953, Wayne University Press. – 274 pp.}

^{2. Штейнфельдт, Эви Александровна: Частотный словарь современного русского литературного языка.
Пособие для преподавателей рус. яз. Таллин, 1963, [б. и.]. – 316 с.
Харакоз, Петр Иванович:
Частотный словарь современного русского языка. Фрунзе, 1971, Мектеп. – 180 с.

Засорина, Лидия Николаевна [ред.]: Частотный словарь русского языка. Москва, 1977, Рус. яз. – 935 с.

Brown, Nicholas J.: Russian Learners’ Dictionary : 10,000 words in frequency order.
London, New York, 2003, Routledge. – 429 pp.
Sharoff, Serge; Umanskaya, Elena; Wilson, James: A
Frequency Dictionary of Russian : Core vocabulary for learners. London, New York, 2013,
Routledge. – 384 pp.
Ляшевская, Ольга Николаевна; Шаров, Сергей Александрович: Частотный словарь современного
русского языка : на материалах Национального корпуса русского языка. Изд. 2-е, испр. и доп.
Москва, 2015, Словари.ру. – 21+1087 с.; ISBN 978-5-9906031-5-8.}

^{3. Размеры файлов в отношении количества слов весьма различны. Средней величины файл содержит около 60 тысяч слов.
Из корпуса были исключены файлы, количество слов в которых не достигло 170-ти. Один файл может содержать как одно стихотворение,
так и журнальную статью или целый номер журнала, многотомный роман или даже полное собрание сочинений одного автора.}

^{4. Слова предложение и слово используются в специальном, техническом значении. Под термином
предложение понимается такая часть текста, которая начинает новый абзац с прописной буквы, или начинается
после окончания другого предложения и продолжается до знака пунктуации, обозначающего конец предложения. После этого
последнего следует новое предложение или абзац, начинающиеся с прописной буквы. Под словом понимается
такая последовательность знаков, которая находится между двумя пробелами или знаками, приравниваемыми к пробелам.}

^{5. Более подробные данные можно получить, обратившись к автору по указанному выше адресу электронной почты.}

^{6. Замена прописных букв строчными осуществлялась в основном в случае кириллицы и латиницы, однако принимались
во внимание и другие алфавиты, имеющие различия в размере букв (греческий, армянский и т. д.).}

Доступные данные

1. Строчные буквы, ё отсутствует

	предварительный просмотр	скачать	значение q
1-грамма	Топ-5000	.7z (21 Мб, 3 845 305 записей)	7
2-грамма	Топ-5000	.7z (501 Мб, 101 705 228 записей)	3
3-грамма	Топ-5000	.7z (887 Мб, 164 778 271 запись)	1
4-грамма	Топ-5000	.7z (645 Мб, 107 082 795 записей)	1
5-грамма	Топ-5000	.7z (338 Мб, 48 276 691 запись)	1
6-грамма	Топ-5000	.7z (176 Мб, 20 952 211 записей)	1

2. Прописные и строчные буквы, буквы е и ё различаются

	предварительный просмотр	скачать	значение q
1-грамма	Топ-5000	.7z (25 Мб, 4 659 621 запись)	7
2-грамма	Топ-5000	.7z (528 Мб, 107 005 384 записи)	3
3-грамма	Топ-5000	.7z (890 Мб, 164 960 165 записей)	1
4-грамма	Топ-5000	.7z (628 Мб, 103 903 042 записи)	1
5-грамма	Топ-5000	.7z (319 Мб, 45 422 413 записей)	1
6-грамма	Топ-5000	.7z (164 Мб, 19 375 391 запись)	1

3. 3. N-граммы, начинающие предложение

	предварительный просмотр	скачать	значение q
1-грамма	Топ-5000	.7z (4,5 Мб, 846 220 записей)	3
2-грамма	Топ-5000	.7z (52 Мб, 10 565 842 записей)	2
3-грамма	Топ-5000	.7z (82 Мб, 15 341 118 записей)	1
4-грамма	Топ-5000	.7z (71 Мб, 12 145 986 записей)	1
5-грамма	Топ-5000	.7z (44 Мб, 6 484 133 записей)	1
6-грамма	Топ-5000	.7z (24 Мб, 2 831 239 записей)	1

4. N-граммы, заканчивающие предложение

	предварительный просмотр	скачать	значение q
1-грамма	Топ-5000	.7z (7,5 Мб, 1 434 834 записей)	3
2-грамма	Топ-5000	.7z (75 Мб, 14 462 378 записей)	2
3-грамма	Топ-5000	.7z (103 Мб, 17 560 647 записей)	1
4-грамма	Топ-5000	.7z (74 Мб, 11 148 880 записей)	1
5-грамма	Топ-5000	.7z (42 Мб, 5 347 139 записей)	1
6-грамма	Топ-5000	.7z (24 Мб, 2 454 385 записей)	1

Utolsó frissítés: