Нелинейный мир

Доклады

Статистический анализ литературных текстов

Суровцова Т.Г.

Петрозаводский государственный университет, Математический ф-т, каф. Прикладной математики и кибернетики, Россия, 185031, г. Петрозаводск, п/о 31, а/я 111, Тел.: (911)415-0-415, (8142)71-10-68, E-mail: tsurovceva@psu.karelia.ru

Исследование структуры литературного текста с использованием статистических методов имеет достаточно богатую историю. Этот интерес тесно связан с проблемами обработки естественного языка, информационным поиском и извлечением данных, установлением авторства произведений. В своих исследованиях многие используют данные электронных корпусов текстов, которые обычно ориентированы на тексты XX века современного русского языка, тексты средневековой Руси.

Создание корпуса текстов, в основе которого лежат публицистические тексты 60-70-х гг. XIX века, в оригинальной орфографии дореволюционной России, станет хорошим дополнением к уже существующим электронным корпусам русских текстов. В ПетрГУ продолжается разработка информационной системы «Статистические методы анализа литературного текста» (ИС «СМАЛТ») [1, 2]. (Проект РГНФ № 02-04-12015в, № 05-04-12418в, рук. Рогов А.А., http://smalt.karelia.ru), которая в настоящее время содержит ряд литературных произведений (публицистические статьи из журналов «Время», «Эпоха», «Современник», «Гражданин» и др.), их морфологические и синтаксические параметры. Созданный корпус может быть использован для проведения исследований и сравнения различных методик, проверки и уточнения гипотез, так как собранный материал позволяет сократить время на повторную подготовку тестируемого материала. На основе созданного корпуса текстов ведутся работы по созданию материалов к грамматическому словарю XIX века.

Заканчивается работа по созданию экспертной системы для решения задач, связанных с установлением авторства, которая будет содержать методы, позволяющие выявить стилистические особенности различных авторов. Предполагается использовать методы многомерного статистического анализа, в частности кластерный и иерархический кластерный анализ, метод оценки парной связи грамматических классов, а также статистические методы проверки гипотез: критерий Стьюдента, непараметрический критерий Колмогорова-Смирнова и некоторые др.

Литература

1. Захаров В.Н., Леонтьев А.А., Рогов А.А., Сидоров Ю.В. Программная система поддержки атрибуции текстов статей Ф.М. Достоевского. Труды Петрозаводского государственного университета: Сер. Прикладная математика и информатика. Вып. 9. - Петрозаводск: Изд-во ПетрГУ, 2000. 180 стр.

2. Рогов А.А., Сидоров Ю.В., Король А.В. "СМАЛТ" - от построения корпуса текстов к способам их обработки статистическими и эвристическими методами. Региональная информатика-2004 "РИ-2004", материалы IX Санкт-Петербургской международной конференции, Санкт-Петербург, 22-24 июня 2004 г., стр. 243-244.