Москин, Н.,
Варфоломеев,
A.
Информационная
система по
фольклорным
песням
Заонежья
конца XIX -
начала XX века
с формальным
представлением
структуры
текста. Daugavpils Universitātes Humanitārās
fakultātes XII Zinātnisko lasījumu materiāli. Vēsture. VI sējums, I daļa.
Daugavpils: Daugavpils Universitātes izdevniecība Saule, 2003. 132
lpp.>40-45.lpp.
_________________________________________________________________________
[126.lpp.]
Информационная система по фольклорным песням Заонежья конца XIX - начала XX века с формальным представлением структуры текста
Стремительное развитие Интернет-технологий дает ученым принципиально новые возможности в представлении своих результатов научному сообществу. Особенно это касается ученых социально-гуманитарных направлений, работающих с большими комплексами источников. Действительно, если математику зачастую достаточно выложить в Сеть свои публикации, физику - подробно описать эксперимент и сослаться на стандартные методы обработки полученных данных, то историк обычно опирается в своих исследованиях на неопубликованные архивные документы и авторские методики работы с ними. В прежние времена, когда печатная публикация результатов исследования была единственной формой представления научной работы, лишь немногим удавалось издать обширные приложения с первичными материалами [1], в которых приводились либо исходные статистические данные, либо регесты - таблицы, содержащие фрагменты архивных источников. В таких случаях подробное описание методики работы с источниками давало возможность проверить выводы автора, воспроизведя его расчеты, а то и провести собственное исследование по иной методике. Привычное для естественных наук требование воспроизводимости эксперимента оказывалось применимым и в гуманитарных областях знаний.
Web-технологии сети Интернет позволяют пойти дальше, объединив текст с описанием методики исследования и выводами автора, базу данных с первичными материалами и инструменты для обработки данных по той или иной методике. Органичное сочетание в Web-страницах текста, графики и программ (скриптов), которые могут обращаться к базам данных и динамически порождать новые Web-страницы, делают Web-публикации потенциально более содержательными и полезными для научного сообщества, чем их традиционные бумажные аналоги. Центральным элементом такой публикации становится вовсе не текст, а информационная система, вводящая в научный оборот новые данные.
На кафедре информатики и математического обеспечения Петрозаводского государственного университета ведется работа над проектом по созданию информационной системы Бесёдные [2] песни Заонежья XIX - начала XX века. Информационная система создается на основе личного архива Р.Б.Калашниковой, насчитывающего около 500 текстов песен. Целью проекта является не только полнотекстовая база данных песен, но и создание средств сравнения и классификации песен по формальным признакам.
Текст песни, как и любой объект исследования, может быть охарактеризован некоторым числом количественных и качественных признаков - жанром, годом записи, наличием обрядовых символов, числом мотивов и т.д. Сам [127.lpp.] текст, кроме того, можно охарактеризовать его словарем, частотой употребления слов и синтаксических конструкций [3], однако эти традиционные для стилеметрии признаки не будут значимыми ввиду маленького объема текста. Намного более важную роль в формализации песни должна играть структура её как связного текста, которая может быть передана таким математическим объектом, как граф. Графом называется множество точек (узлов), соединенных между собой стрелками (дугами). Узлы соответствуют объектам и могут быть разных типов, а дуги соответствуют связям между объектами и могут также быть разных типов (тогда на одном множестве узлов возникает несколько графов). И дуги, и узлы могут также снабжаться числами (весами), задающими, например, силу связи.
Если рассматривать текст с точки зрения синтаксиса, то в роли объектов будут выступать все слова (члены предложения), соединенные между собой сочинительными и подчинительными связями. Такие графы известны давно [4], они используются для автоматического перевода или сравнения стилей текстов. Однако текст бесёдной песни, на наш взгляд, прежде всего описывает некую сцену и события, происходящие на ней, то есть, говоря на языке информатики, предметную область. В роли объектов предметной области выступают сущности (существительные и местоимения текста), а связи задаются, в частности, глаголами.
Рассмотрим в качестве примера хороводную песню начала XIX века [5].
Девушка
в горенке
сидела; |
Своими
белыми
руками |
В этой песне выделяются два центральных объекта: девушка и парень, остальные объекты вспомогательные. Сюжет можно разделить на 3 части. Первая часть заканчивается словами - "Что нейдёт ли, не летит с поля миленькой дружок?", а вторая - "...На правую ручку спать". (В тексте части отделены [128.lpp.] пунктиром). Таким образом, основной сюжет песни можно представить в виде графа с двумя вершинами (девушка, парень) и тремя связями между ними:
Каждая связь этого графа, обозначенная ромбом, скрывает за собой одну из трех сюжетных линий песни. Эти сюжетные линии (части) также можно представить в виде графов:
1. Девушка ждала парня. Связи графа: девушка в горенке сидела; девушка глядела сквозь оконушко; оконушко как (или есть) хрустальное стекло; девушка не работала работушку; девушка голову чесала гребнем; девушка косу плела; девушка постелюшку постлала |
|
2. Парень идет к девушке Связи графа: миленькой летит как ясен сокол; миленькой идет с поля; миленькой постукивает резвыми ногами; миленькой помахивает белыми руками; миленькой потряхивает желтыми кудрями; девушка зовет милого на тесову кровать |
|
3. Парень целует девушку Связи графа: парень целует, милует красну девку; парень обращается к русой косе; девушка сравнивается с русой косой. |
|
[129.lpp.]
Связи между объектами имеют разный характер. На наш взгляд, их можно разбить на две группы: локальные и глобальные. Локальная связь встречается в тексте песни один раз, выражая какое-то конкретное действие, и, как правило, подкреплена глаголом или отглагольной формой. Это может быть:
· простая связь (например, девушка ждет парня, парень целует девушку);
· сравнение (два объекта сопоставляются друг другу. Например, парень - сокол).
Связи из второй группы, названные нами глобальными, находятся над повествованием, они не отражены в тексте песни, однако незримо присутствуют в нем. Можно выделить два вида подобных связей:
· равенство (два объекта относятся к одному и тому же действующему лицу песни, несут общую смысловую нагрузку. Формально их можно объединить в один объект, но их разделение выявляет более тонкую семантику художественного произведения. Например, парень - добрый молодец.);
· принадлежность (один из объектов являются частью другого, т.е. нельзя представить первый без второго. Например, девушка - коса, дерево - ветка)
Таким образом, тексту песни можно сопоставить два графа с одинаковым множеством узлов, один из которых задает сцену песни (глобальные связи между объектами), а другой - действие, происходящее на сцене (локальные связи).
Анализ полученных графов предполагает как исследование отдельно взятой структуры, так и сравнение графов между собой. Существует два пути для сравнения графов - определение расстояния между графами и параметризация, то есть представление графа точкой в n-мерном пространстве параметров, а затем уже выяснение, насколько эти точки близки между собой.
Расстояние на множестве графов можно задать разными способами, лишь бы только оно обладало общими свойствами расстояний - было неотрицательным, равнялось бы нулю только в том случае, когда оба графа полностью совпадают, и т.д.. Например, можно найти для двух графов максимальный по количеству узлов общий подграф (то есть часть графа), а затем сравнить число узлов в этом подграфе с числом узлов в обоих графах [6]. Чем разница между числами будет больше, тем больше графы отличаются друг от друга.
Другой принцип определения расстояния основан на понятии операции редактирования графа. Такой операцией может быть удаление, вставка или изменение типа узла или дуги. Подсчет минимального числа таких операций, необходимого для превращения одного графа в другой, также может дать нам представление, насколько два графа похожи друг на друга [7].
Сравнение графов с помощью параметризации можно провести, например, на основе рангового распределения объектов по числу их связей. Гистограмму такого распределения разумно аппроксимировать гиперболой с двумя или тремя параметрами. Набор числовых значений этих параметров будет представлять граф, а вместе с ним и песню, точкой на плоскости или в пространстве. Ниже на рисунке приведены гистограммы двух песен, резко отличающиеся друг от друга и по внешнему виду, и по набору параметров гиперболических кривых.
[130.lpp.]
|
|
Прототип информационной системы уже реализован с помощью среды визуального проектирования Delphi. Система позволяет в диалоговом режиме определять объекты и связи песен, просматривать графы, а также сравнивать их между собой с помощью гиперболической аппроксимации ранговых распределений. В настоящий момент ведется работа по переводу системы в Интернет.
Summary
Information System Based on the Folksongs (Lane Onega region, end of 19th -beginning of 20th century) with Text Structures Formal Representation
The web-technologies allow to bring the scientific publications up to a new
level, connecting together text, initial data and programs for data processing.
At the center of such publication there is an information system which
introduces the new data into practice. In this report the project of such system
devoted to folklore songs of Russian North is considered. The project provides
for building of a full text database with web-interface and means of
formalization and classification of songs.
________________________________________________
Сноски и примечания
[1] Литвак Б.Г. Опыт статистического изучения крестьянского движения в России в XIX веке.- Москва, 1967; Миронов Б.Н. Хлебные цены в России за два столетия.- Ленинград, 1985; Витов М.В., Власова И.В. География сельского расселения Западного Поморья в XVI - XVIII вв.- Москва, 1974.
[2] Бесёдами назывались молодежные вечеринки у русского крестьянского населения Олонецкой губернии. Песни на бесёдах носили ярко выраженный игровой характер и сопровождались танцами. См.: Калашникова Р.Б. Бесёды и бесёдные песни Заонежья второй половины XIX века.- Петрозаводск, 1999.
[3] Тулдава Ю. Проблемы и методы квантитативно-системного исследования лексики.- Таллин, 1987; Мартыненко Г.Я. Основы стилеметрии.- Ленинград, 1988.
[4] Севбо И.П. Графическое представление синтаксических структур и стилистическая диагностика.- Киев, 1981.
[5] [Дашков В.] Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях, составленное В.Дашковым.- Санкт-Петербург, 1842.
[6] Horst Bunke, Kim Shearer. A Graph Distance Metric Based on the Maximal Common Subgraph // Pattern Recognition Letters.- Vol. 19.- 1998.
[7] Kaizhong Zhang, Jason Wang, Dennis Shasha. On the Editing Distance Between Undirected Acyclic Graphs And Related Problems // Proc. Combinatorial Pattern Matching.- 1995.
Ievietots: 04.03.2003.