В МАУ разработали новый метод автоматического анализа лексики

В Мурманском арктическом университете представили инновационный проект по автоматическому выявлению изменений в словарном запасе языке.

   
   

Для этого была разработана специальная программа на основе языка программирования, которая способна сравнивать изменение частоты употребления слов в огромных текстовых файлах, позволяя тем самым находить новые и устаревшие слова, а также отслеживать, как они меняются со временем.

«Раньше учёные искали новые слова вручную, то есть они читали газетные статьи, интернет-форумы т.п. и самостоятельно выписывали из них новые слова, чтобы потом их проанализировать и внести в словарь, — рассказала автор проекта, кандидат филологических наук, доцент Татьяна Рычкова. — Этот способ требует много времени, сил, он субъективен и ограничен предпочтениями учёного. Более того, уходящие из языка слова таким образом найти вообще невозможно. Обычно к устаревшим относят те слова, которые обозначают уже несуществующие вещи вроде «кафтан» или старославянизмы типа «уста». Наш проект позволяет с высокой степенью точности и объективности вычислить все неологизмы и архаизмы».

С помощью специальной программы сравниваются и анализируются текстовые файлы трёх исторических периодов: дореволюционного с 1700 по 1916 год, советского с 1918 по 1991 год и постсоветского с 1992 по 2016 год общим объемом 250 млн слов.

«Такие файлы никогда не смог бы проанализировать человек. Даже просто пролистать эти файлы до конца – невозможная для человека задача. Для сравнения, в «Войне и мире» всего 188 088 слов», – добавила Татьяна Рычкова.

Проект появился совсем недавно, но уже есть очень интересные результаты. Так, по словам его автора, количество новых слов намного превышает количество уходящих. Это значит, что вопреки опасениям, наш словарный запас становится шире и богаче. С другой стороны, грамматика упрощается и количество разных форм одного слова или однокоренных слов уменьшается. К примеру, раньше использовались слова «переворачивать», «перевёртывать», «перевёртываться», а сейчас остался только первый вариант. Уходят в прошлое эмоциональные слова типа «паровозик», «прехорошенький», «родименький», заменяясь на более нейтральные варианты.

Такое исследование впервые проводится в России. Предполагается, что на основе выявленных изменений можно будет оценить общие тенденции в лексике и спрогнозировать будущие изменения, в том числе с использованием искусственного интеллекта.