Магистерская работа

Каталог работ » Документальная информация

Тема: Реализация автоматической синтаксической сегментации русского предложения

Всего: 140 cтр.

Содержание:

ВВЕДЕНИЕ...3
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ПОЛОЖЕНИЯ И ПРИКЛАДНЫЕ СИСТЕМЫ...16
I. Синтаксические аналогии...16
II. Искусственный интеллект и естественный язык в аналитической философии...21
III. Фундамент синтаксического анализа...33
IV. Гипотеза глубины...42
V. Head-driven Phrase Structure Grammar (HPSG)...45
VI. Link Grammar Parser (LinkParser)...53
VII. Сегментационный анализатор немецкого предложения (STP)...60
ГЛАВА 2. МОРФОЛОГИЧЕСКИЙ И ПРЕДСИНТАКСИЧЕСКИЙ
АНАЛИЗ...65
I. Прикладной морфологический анализ без словаря...65
II. Проектирование словарной морфологии...81
III. Метод снятия морфологической омонимии (tagger)...86
IV. Методика выделения именных групп (np-grouper)...90
ГЛАВА 3. СЕГМЕНТАЦИОННЫЙ АНАЛИЗ РУССКОГО ПРЕДЛОЖЕНИЯ...93
I. Поверхностный синтаксический процессор группы Диалинг...93
Введение...93
Общая схема действий анализа...93
Морфологические интерпретации...95
Внутрисегментный анализ...96
Синтаксические группы...97
Структура сегмента...98
Операция объединения сегментов...99
Операция вложения сегментов...99
Операция деления сегментов...100
Преобразование групп в бинарные отношения...101
Заключение...101
II. Сегментационный процессор группы ОИС...102
Введение...102
Стратегии...102
Морфологическая и синтаксическая омонимии...105
Граф синтагм...106
Граф сегментов...107
Сегментная проективность...108
Метод монтажа...ПО
Метод активизации омонимов...114
Общая схема реализации анализатора...117
Заключение...121
ГЛАВА 4. ПРИКЛАДНЫЕ ВОЗМОЖНОСТИ СИНТАКСИЧЕСКИХ ПРОЦЕССОРОВ В СИСТЕМАХ МАШИННОГО ПЕРЕВОДА И АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ...123
ЗАКЛЮЧЕНИЕ...127
ЛИТЕРАТУРА...128
ПРИЛОЖЕНИЕ 1. ПРИМЕРЫ РАБОТЫ МОРФОЛОГИЧЕСКИХ И ПРЕДСИНТАКСИЧЕСКИХ АНАЛИЗАТОРОВ...132
ПРИЛОЖЕНИЕ 2. ПРИМЕРЫ АНАЛИЗА СИНТАКСИЧЕСКИХ
ПРОЦЕССОРОВ...140

Выдержки из работы:

ВВЕДЕНИЕ
Синтаксический анализ является одним из наиболее исследованных направлений в теории computer science. Синтаксические анализаторы широко применяются в таких областях как создание компиляторов, проектирование
интерфейсов баз данных, искусственный интеллект (ИИ), автоматическая обработка текстов (АОТ), в том числе для автоматизированных информационно-поисковых систем (АИПС, или «поисковых машин»), машинный перевод (МП), анализ химических формул и распознавание хромосом. Синтаксическим анализом (parsing) называется процесс структурирования линейной репрезентации в соответствии с заданной грамматикой [D.Grune, C.Jacobs, 1990]. Такое определение, являясь наиболее общим и абстрактным, позволяет охватить весь спектр приложений синтаксических методов. Техникой parsing называется вся совокупность существующих алгоритмов для решения задач синтаксического анализа. Техника parsing берет свое начало в формальных синтаксических теориях естественного языка (ЕЯ), моделирующих механизм распознавания человеком языковых структур. Несмотря на это, именно применение техники parsing в задачах автоматической обработки текста далеко не всегда бывает эффективным и дает положительный результат. Так, например, контекстно-свободные грамматики (context-free grammars) и аппарат конечных автоматов (finite-state automata) широко используются в системах морфологического анализа, снятия омонимии и выделения именных групп внутри предложения, но теряют свое прикладное значение в задачах сегментационного, полного синтаксического и семантического анализа, особенно для языков с относительно свободным порядком слов, каким является русский. Формальные математические модели и их программные динамические реализации не способны охватить всю сложность и многообразие языковой системы. Применение формализма для структурирования предложения естественного языка зачастую приводит к потере правильного синтаксического представления или комбинаторному взрыву, когда программа оказывается не в состоянии просчитать все возможные варианты структур. Лингвистически мотивированные причины такого "провала" - явление омонимии, длина связи между словами, сочинительные конструкции, нарушающие древесность графа, и сложность сегментной структуры предложения. Сфера действия методов распознавания и классификации объектов в лингвистических процессорах тоже сильно ограничена: скрытые модели Маркова удается применить только в узких контекстно-ограниченных задачах снятия морфологической омонимии [Xerox, 1999], нейронные сети используются в системах автоматического
распознавания речи [С. Гладунов, О. Федяев, 2002], - такие модели, построенные на обучении и являющие собой альтернативный технике parsing подход, не имеют достаточной силы для отражения способности предложения естественного языка к неограниченному усложнению. Все эти обстоятельства позволили прикладной (компьютерной) лингвистике выделиться в отдельную область исследования и стать самостоятельно развивающейся ветвью искусственного интеллекта.
Далее в работе мы будем использовать понятие синтаксического анализа только применительно к предложению естественного языка.
Взаимодействие между лингвистикой и computer science началось еще полвека назад с возникновением теории Н. Хомского, развитием генеративизма и появлением электронно-вычислительных машин. Многие лингвистические идеи и концепции на протяжении последних десятилетий были заимствованы и воплощены в программировании, теоретической информатике и информационных системах. Наиболее яркими примерами такого заимствования могут служить базисный компонент порождающей грамматики Н. Хомского, который стал прототипом первых компиляторов искусственных языков, или выдвинутая М. Мински, исследователем в области ИИ, теория фреймов для представления реальных объектов в системах распознавания образов и естественных языков [Г. Буч, 2000], которая сыграла свою роль как в становлении объектно-ориентированного подхода в программировании, так и в семантических исследованиях языка, а наследование и полиморфизм -фундаментальные принципы объектно-ориентированного программирования -стали применяться в проектировании лексиконов [I. Sag, T. Wasow, 1999].
Существует и удивительная связь между естественными и искусственными языками, которая заключается в закономерности эволюции языков. Первый опыт программирования в машинных кодах или на языках низкого уровня, к которым относится ассемблер, характеризуется скорее командным (императивным) стилем, где только упорядоченная последовательность операторов (команд) образует осмысленное действие, подобно тому как в языках с развитым словообразованием последовательная конкатенация грамматических аффиксов порождает слово, обладающее новым значением. С развитием таких языков как ALGOL-60 или COBOL усложняются синтаксические конструкции языка, появляется блочная структура программ. В
следующем поколении языков, Pascal и С, текст программы становится похож на многопролетные лестницы, возможность описывать логику действий развернутыми синтаксическими конструкциями задает "ступенчатую" форму текста. Последнее поколение объектно-ориентированных языков (CLOS, Object Pascal, C++ и Java) стремятся к описанию ключевых абстракций предметной области; абстракции объединяются в библиотеки классов, а программы оперируют объектами этих классов, вызывая методы классов и используя свойства классов, тем самым упрощая синтаксические конструкции, но усложняя структуру объектов и семантические зависимости между ними; текст современный программы напоминает набор коротких четверостиший или деклараций, где каждая строка - обращение к объекту со своим значением и сложной семантикой. Нечто подобное наблюдается и в процессе эволюции естественных языков, когда постепенное вырождение словоизменительной парадигмы в морфологии приводит к ужесточению порядка слов в предложении и фиксации жестких синтаксических конструкций, а последующее усложнение семантики, за счет насыщения языка идиомами и фраземами, за счет появления более абстрактных понятий или новых значений старых слов или за счет пополнения общеупотребительной лексики из научных метаязыков, приводит к упрощению синтаксиса. Конечно, такой сценарий развития не является обязательным и предопределенным для многих языковых групп и семей, но такой путь эволюции до некоторой степени справедлив для италийской группы индоевропейских языков - от латыни к современному итальянскому и французскому - и для группы германских языков.
Разумеется, что такое сравнение программных и естественных языков является во многом условным, но одно можно утверждать с полной уверенностью: "изменчивость - глубинное и универсальное свойство" [С. Бурлак, С. Старостин, 2001] как естественных, так и искусственных языков. Очевидно то, что направления векторов развития систем естественного и искусственного языков совпадают, как и то, что история человеческого языка насчитывает тысячелетия, а искусственных пять десятилетий. Возможно, именно глобальность задачи и разнообразие явлений синтаксиса предложения помноженное на число существующих на земле языков с развитой письменностью оправдывает разработку новых моделей и алгоритмов,
отличных от общепризнанных техник parsing или математических моделей, успешно используемых в других областях человеческого знания.
Теоретическая лингвистика и типологический опыт исследования языков создали необходимый описательный аппарат для компьютерного моделирования автоматического анализа текстов. Множество теоретических подходов можно разделить на два основных направления: формализм и функционализм. Формализм утверждает, что язык есть врожденная компонента человеческого мышления, которая может быть представлена в виде абстрактной модели на метаязыке формальной грамматики и не зависит от способов использования языка, а функционализм напротив полагает, что строение языка определяется его использованием [Я. Тестелец, 2001]. Исследования в формальной лингвистике можно тоже условно разделить на два подхода: построение универсальной грамматики, верной для всех существующих языков мира, и построение формальной модели, наиболее полно охватывающей все множество грамматических явлений конкретного языка. Н. Хомский стал родоначальником первого подхода и основателем школы генеративистов, самым ярким представителем второго подхода является И. Мельчук, автор модели "Смысл О Текст".
В задачах автоматической обработки текста (АОТ), как правило, используются концепции, разработанные в рамках формализма. Совмещая два подхода формальной лингвистики, программные модели являются лишь частичной реализацией теоретических исследований.
Работы по созданию синтаксического модуля велись еще в конце 60-ых годов, но вычислительная мощность компьютеров не позволяла реализовать сложные алгоритмы анализа в полном объеме. Упрощение алгоритмов и отказ от перебора омонимичных вариантов - компромисс, который приводил к низкой точности синтаксического анализа предложения. Сегодня, по-прежнему, задача автоматизированного анализа синтаксиса ЕЯ сводится к двум параметрам: качеству, определяемому парой «точность (уровень ошибок в построенных синтаксических структурах предложений), полнота (степень покрытия текста синтаксическими связями, или связность графа предложения)», и скорости, пока что недостаточной для ряда прикладных задач.
Ниже будут введены несколько определений понятий, связанных с синтаксическим анализом естественного языка, которые позже получат более
точные формулировки. Линейной репрезентацией предложения естественного языка называется цепочка элементов, где каждый элемент является минимальной синтаксической единицей. Минимальная синтаксическая единица может быть словоформой или оператором с определенным набором характеристик. Оператором называется знак препинания или сочинительный союз. Обязательной составляющей такого набора у словоформы является ее морфологическая репрезентация, обычно состоящая из значения части речи и граммем, а у знака препинания или сочинительного союза - тип оператора (значение, выполняемой им грамматической функции). Таким образом, можно представить линейную репрезентацию предложения в виде цепочки морфологических репрезентаций словоформ и типов операторов.
Процессом структурирования линейной репрезентации предложения называется построение ориентированного графа синтагм и ориентированного графа сегментов.
Синтагма определяет бинарное синтаксическое отношение вида R(A, В), где А и В - словоформы, a R - тип синтаксического отношения, который соответствует имени синтагмы; А является хозяином, В - слугой, т. е. А управляет В. Таким образом, узлами графа синтагм является терминальные единицы. Связанность не является обязательным условием такого графа, так как синтагмы опираются только на морфологические репрезентации словоформы, линейный порядок предложения и, в некоторых случаях, на примитивную модель управления. На этом уровне анализа связи, для построения которых необходимо использовать сложную модель управления (предикатно-аргументную структуру) или семантическую информацию, могут не фиксироваться в графе синтагм.
Интуитивно сегмент можно определить как часть предложения (в частном случае целиком простое предложение), выделенную на письме знаками пунктуации и описывающую отдельную ситуацию; каждый такой сегмент имеет в качестве вершины явный предикат, выраженный в большинстве случаев финитной формой глагола, или «скрытый» предикат, который может быть выражен либо деепричастием, либо причастием, либо именем с семантической характеристикой действия; каждый такой предикат и задает ситуацию. Близкие по значению понятия в теоретической лингвистике - "предикация" и "элементарное предложение". В западной лингвистической традиции понятие
сегмент эквивалентно термину клауза: "клаузой называется любая группа , в том числе и не предикативная, вершиной которой является глагол, а при отсутствии полнозначного глагола - связка или грамматический элемент, играющий роль связки" [Тестелец, 2001]. Например, любое придаточное предложение (или причастный и деепричастный обороты) в составе сложного является сегментом, равно как и простое предложение в составе сложного образует отдельный сегмент. Сегмент, в терминах системы составляющих, является фразовой категорией (подобно NP, VP, PP, etc. [I. Sag, T. Wasow, 1999]) или нетерминальной единицей. Таким образом, узлами графа сегментов являются нетерминальные единицы.
Морфология, лексема, основа, окончание - понятия и термины, в последние годы ставшие общеупотребительными. Любой грамотный пользователь глобальной сети сможет "на пальцах" объяснить значение этих слов и преимущества поиска информации с использованием морфологии. На сегодняшний день только для русского языка существует несколько десятков известных систем морфологического анализа, число же программ английской морфологии в несколько раз больше. Следующим этапом в развитии направления искусственного интеллекта, занимающегося автоматической обработкой текста, является создание промышленной системы синтаксического анализа естественного языка.
Задача сегментации предложения является первой и, возможно, самой сложной компонентой полного синтаксического анализа. Целью сегментации является выделение и классификация сегментов в составе сложного предложения. Вторая компонента - построение внутрисегментных связей (графа синтагм) - исследована намного глубже и имеет успешные решения, экспериментально подтвержденные на анализе простых (односегментных) предложений. Основной упор в представляемой работе делается на разработку стратегий и методов автоматической системы сегментационного анализа предложения, хотя и предлагается ряд решений, связанных с внутрисегментным анализом терминальных единиц, а также методы моделирования морфологического анализа и снятия омонимии.
В последние десятилетия в странах Западной Европы, США и России проводятся чрезвычайно интересные и перспективные исследования по созданию систем автоматического синтаксического анализа для многих
индоевропейских языков. Все попытки моделирования таких систем, как правило, происходят без предварительной сегментации предложения, что приводит к порождению в ходе анализа большого числа ложных синтаксических связей внутри сложного предложения и значительному снижению скорости анализа. Отсутствие в моделях отдельного сегментационного компонента можно считать одной из основных причин того, что до сих пор не создано эффективных систем синтаксического анализа для русского языка (РЯ) [Т. Кобзарева и др., 2000]. Сегментационный компонент может быть использован и в качестве самостоятельной системы при решении многих прикладных задач автоматической обработки текстов (ИПС, автоматическое реферирование, машинный перевод, etc.). Сегментация предложения, наряду с морфологическим анализом, должна стать базисной составляющей любой полной системы АОТ. Таким образом, создание компонента сегментации русского предложения является чрезвычайно актуальной задачей.
Синтаксический анализ - задача приближения. Любая синтаксическая теория должна обладать описательной и объяснительной силой. Это утверждение с некоторыми оговорками и дополнениями остается справедливым и для прикладных моделей. Описательная сила модели формулируется как максимально возможное покрытие грамматических явлений рассматриваемого языка. Объяснение в теоретической лингвистике заключается в рассмотрении вопроса о существовании в языке именно данных наблюдаемых фактов, а не других [Я. Тестелец, 2001]. В данной работе объяснение понимается в контексте ИИ: любая интеллектуальная система должна уметь обосновать каждый шаг принятых ею в ходе анализа решений [М. Boden, 1990]. Такой критерий подразумевает, что количество эвристик и вероятностно-статистических распределений в системе синтаксического анализа должно быть сведено к минимуму. Существует и третий, не менее важный критерий прикладной модели - эмулирующий принцип построения алгоритмов, - который заключается в способности лингвистического процессора к воспроизведению интуиции и схемы рассуждений человека в процессе изучения и восприятия языка.
Идеальная модель лингвистического процессора состоит из четырех основных анализаторов: графематического (внешнее представление текста),

морфологического, синтаксического и семантического. В данном случае мы ограничимся рассмотрением трехсоставного процессора без семантического анализатора.
Целью настоящей работы было создать экспериментальную систему автоматической сегментации русского предложения, демонстрирующую возможность эффективного - с точки зрения качества и скорости анализа -решения этой задачи как ключевого этапа полного автоматического синтаксического анализа русского текста. Основной решаемой проблемой была при этом разработка методов автоматической сегментации предложения и способов программирования, позволяющих минимальными силами решить поставленную задачу применительно к текстам произвольной (или почти произвольной) синтаксической сложности, а также построение прикладной модели лингвистического процессора, удовлетворяющего описательному, объяснительному и эмулирующему принципам.
Предметом исследования является структура сложного предложения русского языка и законы ее построения.
Работа построена на описании и сравнении решений и результатов двух систем синтаксического анализа, использующих компонент сегментации русского предложения.
Синтаксический процессор группы ДИАЛИНГ был создан в рамках проекта русско-английского машинного перевода (1999-2001). Фундаментом для исследований группы ДИАЛИНГ послужила система французско-русского автоматического перевода (ФРАП), разработанная в ВЦП совместно с МГПИИЯ им. М. Тореза в 1976-86 гг., и система анализа политических текстов (ПОЛИТЕКСТ), разработанная в Центре информационных исследований совместно с ВЦ ИСК РАН в 1991-97 гг [Н. Леонтьева, 1995].
Синтаксический анализатор научный группы Отделения интеллектуальных систем (ОИС) Института Лингвистики РГГУ (Д.Г. Лахути, Т.Ю. Кобзарева, И.М. Ножов) был создан в 1999-2003 гг. Предлагаемый проект продолжает развиваться и содержит наиболее полную реализацию идей сегментации русского предложения. Базисом для проводимых исследований послужила модель автоматического поверхностно-синтаксического анализа русского предложения, разработка которой была начата еще в 1971 г. в
Информэлектро в секторе (затем отделе) Д.Г.Лахути группой лингвистов под руководством Г.А.Лесскиса.
Также в работе предложены альтернативные подходы к проектированию некоторых составляющих лингвистического процессора, разработанные автором диссертации в НТЦ "Система" (1997-1998 гг.) и в исследовательском отделе компании Inxight, Software Inc. (2002-2003 гг.).
Методы исследования:
• Создание и пополнение лексиконов, содержащих необходимую для анализа морфологическую и грамматическую информацию;
• Разработка лингвистических стратегий и правил, отвечающих синтаксическим законам языка; изучение множества грамматических явлений, характерных для русского языка; поиск (с использованием конкорданса) случаев применения описываемых грамматических конструкций в корпусе текстов;
• Проектирование общей схемы лингвистического процессора и прикладной модели синтаксического анализа;
• Разработка алгоритмов порождения и перебора структурных вариантов предложения, связанных с явлением морфологической и синтаксической омонимии естественного языка;
• Создание динамических структур данных для представления и хранения синтаксической информации и программное моделирование процесса анализа на ЭВМ;
• Создание отладочного массива предложений, охватывающего все множество отраженных в модели грамматических явлений, и тестирование системы на пространстве реальных текстов.
• Оценка эффективности применения предложенных методов в системах АОТ или МТ.
Научная новизна работы состоит в том, что предложенные алгоритмы порождения структурных вариантов предложения позволили создать успешную модель лингвистического процессора и отказаться от декартова произведения омонимов, проверить работоспособность оригинальных грамматических стратегий анализа и реализовать методы автоматической сегментации без искусственного ограничения на перебор структурных вариантов,
обусловленных морфологической и синтаксической омонимией, и без ограничения на глубину рекурсии сегментов и длину предложения.
Практическая значимость работы определяется программными реализациями анализаторов, созданных на базе разработанных методов и стратегий и получивших практическое применение в различных системах автоматической обработки информации. В диссертации приведены примеры внедрения программ.
В процессе работы над диссертацией автором были получены следующие научные результаты:
1. Разработаны два метода автоматического синтаксического анализа предложения: метод активизации омонимов и рекурсивный метод монтажа разрывных сегментов.
2. Построена прикладная модель синтаксического анализатора, удовлетворяющего описательному, объяснительному и эмулирующему принципам, и позволяющая вести анализ параллельно: "снизу вверх" и "сверху вниз".
3. Отлажены грамматические стратегии сегментации и доказана их работоспособность.
4. Программно реализованы, совместно с другими разработчиками, две системы: промышленный синтаксический процессор группы "Диалинг" и экспериментальная сегментационный анализатор группы ОИС под руководством Д.Г. Лахути.
5. В процессе проводимых исследований и изучения существующих подходов к проектированию лингвистических процессоров автором, совместно с другими исполнителями, были разработаны и внедрены следующие прикладные модули: бессловарный морфологический анализ (НТЦ "Система") и Russian LinguistX Platform 3.5 (Inxight, Software Inc.), включающая в себя tokenizer, stemmer, tagger и np-grouper русского языка.
Апробация работы. Основные выводы и научные результаты диссертационной работы докладывались на международных конференциях Диалог в 2000 и 2001 гг., на национальных конференциях по искусственному интеллекту КИИ в 2000 и 2002 гг. и на научно-технической конференции ВИНИТИ в 2000 г. По теме диссертации автором опубликовано 6 работ. Сдана в печать одна статья.
Структура и объем работы: Диссертация состоит из введения, четырех глав, заключения, списка литературы из 53 наименований и двух приложений. Общий объем работы -148 страниц, основной текст- 131 страница.
В первой главе приводятся аналогии с химическим строением сложного вещества, шахматной игрой и монтажом фильма, существенные для понимания изложенного в работе подхода к построению модели синтаксической сегментации; рассматриваются современные представления об искусственном интеллекте и его взаимосвязях с естественным языком в аналитической философии; вводятся определения лингвистических понятий релевантных для прикладных моделей; содержится изложение фундаментальных концепций синтаксической теории Head-driven Phrase Structure Grammar (HPSG) и описание ее приложений; рассматриваются синтаксические процессоры английского (LinkParser) и немецкого (STP) языков.
Во второй главе дается описание составляющих лингвистического процессора, которые предшествуют синтаксическому анализатору; рассматриваются различные решения и подходы к проектированию системы морфологического анализа, модуля снятия омонимии и задачи выделения из текста именных групп (NP).
В третьей главе дается описание синтаксического процессора ДИАЛИНГ: системы сегментационных и синтаксических правил, вершины сегментов и синтаксические группы, тезаурусы, элементарные аналитические формы и группы с разрывными союзами; содержится описание сегментационного анализатора группы ОИС: грамматические стратегии сегментации Т.Ю. Кобзаревой и модульность анализа, два типа омонимии (морфологическая и синтаксическая), граф синтагм и граф сегментов, общая схема и прикладная модель сегментации, рекурсивный метод монтажа разрывных сегментов и метод активизации омонимов; приводится сравнительный анализ двух систем.
В четвертой главе диссертации обсуждаются примеры использования и внедрения синтаксических процессоров ЕЯ и их составляющих: бессловарный морфологический анализ в системах автоматического построения словарей и поиска в правовой базе данных НТЦ "Система", технологии Inxight LinguistX Platform в системах АОТ (Мигах, Categorizer и Smart Discovery), синтаксический
14
процессор в системе машинного переводчика ДИАЛИНГ, экспериментальные и обучающие возможности сегментационного анализатора группы ОИС.
Создание сегментационного анализатора группы ОИС стало возможным в первую очередь благодаря лингвистико-алгоритмическому аппарату, разработанному Т.Ю. Кобзаревой, и руководителю проекта д.т.н., профессору Д.Г. Лахути.
Разработка синтаксического процессора группы ДИАЛИНГ - результат коллективного творчества. В разное время в проекте принимали участие следующие специалисты:
1. А. Сокирко (руководитель проекта);
2. Д. Панкратов (русский синтаксис и сегментация, программная реализация);
3. Л. Гершензон (система синтаксических и сегментационных правил);
4. Т. Кобзарева (русский синтаксис и сегментация);
5. И. Ножов (русский синтаксис и сегментация, программная реализация). Всем участникам проекта ДИАЛИНГ автор выражает свою благодарность.
За техническую поддержку в реализации проекта бессловарного морфологического анализа автор благодарит А.Н. Кудрина (руководителя отдела разработки НТЦ "Система").
Также автор выражает благодарность исследователям компании Inxight, Software Inc. за оказанную техническую поддержку, научные консультации и обсуждения, проводившиеся при создании русской версии LinguistX Platform (tokenizer, stemmer, tagger и np-grouper):
1. Masayo Iida (руководитель отдела лингвистических исследований Inxight, Санта Клара, Калифорния, США);
2. David van den Akker (руководитель департамента разработки Inxight, Антверпен, Бельгия);
3. Carolina Rubio de Hita (ведущий специалист Inxight, Антверпен, Бельгия).
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ПОЛОЖЕНИЯ И ПРИКЛАДНЫЕ СИСТЕМЫ
I. Синтаксические аналогии
В современной теоретической лингвистике часто используются аналогии, связанные с другими научными дисциплинами и областями человеческого знания, которые помогают наглядно представить и продемонстрировать структурные задачи и подходы к моделированию языковых процессов.
Так, для задачи реконструкции праязыков в компаративистике распространено сопоставление понятия "генетического дрейфа" в биологии и законов распределения фонетических соответствий в языках. Самая популярная и распространенная аналогия в синтаксических теориях связана с химией: строение молекулы и явление изомерии [И. Мельчук, 1999].
В этом разделе будут приведены три аналогии, которые могут быть полезны для понимания задачи сегментации сложного предложения, -химическое строение сложного вещества, шахматная игра и монтаж фильма.
Следуя аналогии Мельчука, попытаемся представить "объемное" предложение с включенными в него придаточными молекулой сложного вещества в органике, состоящей из атомов двух и более видов, где каждый отдельный сегмент играет роль такого атома. Сегмент, в свою очередь, также состоит из конечного множества иерархически организованных элементов, т.е. имеет свою внутреннюю независимую от общей структуру. Как соединения атомов в молекуле образует разные вещества, так и по-разному связанные сегменты образуют сложные предложения, отличающиеся по смыслу. Рассмотрим для наглядности следующий пример: 'Иван, который оставался в городе, сказал, что видел Петра1. Это сложное предложение состоит из трех разнородных простых сегментов: (1) 'Иван сказал', (2) 'который оставался в городе' и (3) 'что видел Петра'. Соединение сегментов '2^-1->3' задает смысл приведенного примера, в то время как тип соединения '1-^3-^2' соответствует предложению с другим общим смыслом: ' Иван сказал, что видел Петра, который оставался в городе', а тип соединения '2-^3-> Г порождает бессмыслицу. Разумеется, разные типы соединения обусловлены не только
внешними условиями, но и составляющими внутри каждого сегмента, равно как и устойчивые связи между атомами в молекуле зависят не только от физических условий, но и от самих химических элементов. Конечно, аналогия с химическим строением сложного вещества весьма субъективна, но позволяет продемонстрировать тот факт, что в предложении существует некоторая макроструктура, живущая по своим законам и отличающаяся от принятой (состоящей из слов).
Первым ученым, который заметил аналогию между шахматной партией и системой языка, был швейцарский лингвист Фердинанд де Соссюр. Для него шахматы служили удачной метафорой для противопоставления диахронии и синхронии в языке: каждое передвижение фигуры в течение партии изменяет позицию и дальнейшее развитие на доске, причем последствия одного хода могут быть незначительными, а могут иметь необратимые последствия; передвижение фигур во время игры аналогично языковым изменениям в диахронии, а каждая позиция на доске между ходами игроков сравнима с синхронным срезом языка во времени [Ф. де Соссюр, 1999]. Существуют другие, придуманные после Соссюра и не менее интересные шахматные аналогии для естественного языка. Тот факт, что на одной клетке шахматной доски ни в какой момент игры не могут одновременно стоять две фигуры сравнивается с гипотезой единственности заполнения грамматической позиции в предложении, когда, например, не может быть двух подлежащих или двух сказуемых в одном простом предложении [Я. Тестелец, 2001]. Но для представления процесса сегментации нас будет интересовать совсем другое свойство шахматной игры, а точнее способность шахматиста. Способность шахматиста заключается в его интуиции, которая позволяет даже человеку с минимальным опытом игры выбирать фокусное пространство на шахматной доске, т.е. из миллиарда возможных ходов и комбинаций в каждой позиции безошибочно выбирать десяток единственно правильных и осмысленных, не просчитывая остальные. Таких фокусных пространств или ключевых узлов в шахматной позиции может быть несколько, и человек сосредоточивается на выборе одной, самой выгодной на его взгляд, комбинации из десятка возможных, пытаясь просчитать изменение позиции на несколько шагов вперед и предсказать ответы противника. Выбор такого фокусного пространства стал ключевой задачей для программистов и специалистов в области ИИ,
17



Если качество данной работы не соответствует заявленному, мы вернем вам деньги или обменяем на другую по вашему выбору. Данная гарантия действует в течение 24 часов после покупки работы.



Подобные работы