Яцко Вячеслав Александрович
доктор филологических наук, Хакасский государственный университет им. Н.Ф.Катанова, профессор

Область научных интересов: компьютерная лингвистика, байесовский анализ, теория вероятностей.

E-mail iatsko@gmail.com
Список публикаций: (3)
№6 2021г.
Z-КОЭФФИЦИЕНТ КАК ПАРАМЕТР АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТОВ
Рассмотрены особенности классификации текстовых документов и функционирования программы-классификатора. Описан алгоритм вычисления Z-коэффициента как параметра классификации. Проведено тестирование его эффективности для решения задачи авторской атрибуции на полных текстах, выравненных текстах, а также на выравненных текстах в сочетании с отклонением от распределения Ципфа. Тестирование показало, что применение Z-коэффициента как самостоятельного параметра даёт отрицательный результат. Вместе с тем, высокую эффективность продемонстрировало применение этого коэффициента на основе отклонения от распределения Ципфа, что позволило разработать вариант предложенного ранее Y-метода автоматической классификации текстов.
Загрузить | PDF, 312 Kb
№3 2021г.
Y-МЕТОД КЛАССИФИКАЦИИ ТЕКСТОВ
Рассматриваются основные особенности автоматической классификации текстовых документов. Описываются процедуры нового метода, основанного на вычислении отклонений распределения стоп-слов от коэффициента Ципфа: распознавание стоп-слов и составление ранжированных списков; вычисление отклонений частотностей терминов от коэффициента Ципфа; вычисление индексов текстов на основе среднего квадратичного отклонения; определение степени близости текстов. Разработаны показатели эффективности классификации: дискриминирующей силы, симилирующей силы и обобщённый показатель. Тестирование метода показало его эффективность при решении задачи жанровой классификации текстов.
Загрузить | PDF, 664 Kb
№4 2020г.
ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ КОСИНУСНОЙ МЕТРИКИ ДЛЯ ОПРЕДЕЛЕНИЯ СМЫСЛОВОЙ БЛИЗОСТИ ДОКУМЕНТОВ
Оценивается эффективность применения косинусной метрики определения смысловой близости документов для решения задачи авторской атрибуции текстовых документов. Исходными статистическими данными послужило распределение стоп-слов в трёх произведениях художественной литературы, два из которых были написаны одним автором. Показано, что более адекватный результат получается при применении метрики к отклонениям частотностей стоп-слов от распределения Ципфа при условии предварительного выравнивания входных текстов.
Загрузить | PDF, 339 Kb