Новые файлы
Попул. файлы
Новое обменнике
Попул. в обменнике


Добро пожаловать на наш сайт!

В разделе файловый архив существуют следующие разделы:
- Symbian 6-8 (Интернет, Мультимедийные, Системные, Офисные, Шрифты, Разное);
- Symbian 9.1 - 9.3 (Интернет, Мультимедийные, Системные, Офисные, Шрифты, Разное);
- Symbian 9.4 (Интернет, Мультимедийные, Системные, Офисные, Разное) - Nokia 5800 XpressMusic
- Windows Mobile (Интернет, Мультимедийные, Системные, Офисные, Разное);
- Видео Приколы | Фильмы | Comedy Club | Мультфильмы | Клипы | Разное | ;
- Книги Фантастика | Приключения | Детектив | Триллеры | Юмор | ;
И многое дургое...

Если вы часто выходите в интернет с помощью своего смартфона, то для него есть смарт версия сайта. Теперь у нас есть и ОБМЕННИК,где пользователи могут добавлять свои файлы.




ПРИНЦИПЫ РАБОТЫ И ОСОБЕННОСТИ РЕАЛИЗАЦИИ АНАЛИЗАТОРА РУССКОГО ЯЗЫКА Статьи партнёров

 В работе описываются формальная лшивистическая модель, входные данные анализатора, методы сборки структуры предложения и особенности взаимодействия между различными частями речи. Также затронуты некоторые проблемы разрешения омонимии и вопросы производительности анализатора.


Основной целью семантико-синтаксического анализатора является выбор корректного формального значения каждого iлова и построение иерархической структуры предложения. Сложность естественного языка, затрудняющая разработку прикладных систем, проявляется в его лексическом богатстве, в наличии сложных схем управления, в функциональном взаимодействии лексических единиц. Для снятия с текста языковой оболочки необходимо представить информацию в некотором формальном виде, на семантическом языке.


Для этого необходим механизм перевода с естественного языка на семантический. Целью данной работы является описание принципов, моделей и алгоритмов, заложенных в семантико-синтаксический анализатор русского языка. Описываемая программная система способна строить иерархическую структуру предложения русского языка и переводить его на семантический язык.


Представляется, что такая система будет обладать значительной степенью универсальности, поскольку семантический язык отражает только смысловое содержание высказывания, а его прагматическая составляющая должна быть учтена на последующих этапах анализа, т.е. предметно ориентирована. Семантический язык, используемый в рассматриваемой системе, разработан профессором Тузовым Виталием Алексеевичем в 1990 году в г. Новосибирск и подробно им описан. Основу семантического языка составляет иерархия базовых понятий (семантических классов) и набор базовых функций, которые определены над семантическими классами. Модель управления слова использует понятие семантико-грамматического типа, который вместе с семантическим классом используется для установления связи между словом-функцией и словом-аргументом. В предложении смыслы отдельных слов функционально взаимодействуют между собой, т.е. одно слово является функцией, а другое - аргументом. В процессе взаимодействия семантическая формула аргумента подставляется в формулу слова-функции.


Таким образом строится новый смысл собранной конструкции, который может быть вычислен путем интерпретации семантической формулы. Система семантико-синтаксического анализа состоит из следующих компонент морфологический анализатор, морфологический словарь, естественно-семантический словарь, и алгоритм сборки предложения. Входом системы является предложение русского языка, выходом - структура предложения и семантическая формула, содержащая его формальный смысл. Процесс анализа разделяется на 3 стадии морфологический анализ, предварительная пословная обработка и сборка предложения. Этап морфологического анализа необходим для приведения слова к инфинитивной форме и для получения морфологических характеристик слова, а также для устранения языкового барьера. Морфологический процессор не является оригинальной разработкой, а подключается в виде внешнего модуля.


На этапе пословной обработки строится список независимых семантических альтернатив и вычисляется семантико-грамматический тип каждой альтернативы. На этом этапе каждая часть речи обрабатывается отдельно. Первые два этапа анализа предназначены для подготовки всей информации, необходимой для управления процессом сборки предложения. Далее алгоритм анализа, используя морфологическую и семантическую информацию, правила сборки и систему предпочтений, строит единую конструкцию, отражающую смысл исходного предложения.


Сборка предложения - это процесс объединения слов в единую семантико-синтаксическую конструкцию, имеющую вид дерева, где для каждого слова выбирается его единственная семантическая альтернатива (за исключением случаев явной многозначности). В настоящей системе используется метод сборки снизу вверх с системой приоритетов, который позволяет избежать перебора и не использовать механизм возвратов. Анализ предложения идет в две фазы. Первая фаза - выполнение ряда однократных действий, таких как обработка фразеологизмов, присоединение частиц, взаимодействие наречий и др.


Все остальные взаимодействия производятся на второй фазе сборки, в итеративной процедуре, поскольку успешному взаимодействию двух конструкций может препятствовать слово, стоящее между ними, которое будет присоединено к одному из них в дальнейшем. Порядок взаимодействия различных частей речи определяется правилами русского языка. Собственно взаимодействие слов определяется частями речи, которым принадлежит каждое из них. Некоторые части речи принципиально не могут взаимодействовать между собой, для всех остальных важен порядок, т.е. слово какой части речи будет функцией, а какой - аргументом. Взаимодействие различных частей речи имеет свои особенности, которые учитываются при анализе. Проблема машинного анализа осложняется тем, что слово, однозначно воспринимаемое человеком может иметь гораздо больше вариантов толкования.


Это проблема морфологической омонимии. Если слово принадлежит к одной части речи, но имеет различные морфологические характеристики, то это не вызывает проблем при анализе. В процессе взаимодействия выбирается нужный набор морфологических свойств из возможных у конкретного слова, остальные отбрасываются. Однако, слово русского языка может принадлежать вариантам различных частей речи. Это порождает сложную проблему выбора альтернативы, поскольку разные части речи по-разному взаимодействуют между собой и обрабатываются различными алгоритмами. Частично проблема решается на ранних этапах анализа за счет соотнесения спорных вариантов с рядом стоящими словами. В настоящей системе использован принцип, согласно которому берутся те альтернативы, которые способны успешно взаимодействовать с учетом всех ограничений. Описанный алгоритм семантико-синтаксического анализа программно реализован в виде экспериментальной системы.


Работа с системой позволяет совершенствовать алгоритм анализа на материале русскоязычных текстов, расширять и корректировать морфологический и семантический словари системы. Другим ограничением является некорректность анализа прямой речи, поскольку прямая речь не характерна для научных текстов. Таким образом, ССА русского языка является универсальным средством предварительной обработки текста. Сборка последовательности слов предложения в иерархическую структуру с формальным смыслом слов позволит упростить дальнейший анализ текста за счет снятия языковой оболочки, явного учета многозначности, иерархической структуризации предложения, построение семантической формулы высказывания. Авторы считают, что новым в данной работе является реализация оригинального алгоритма семантико-синтаксического анализа Важной представляется проблема практического использования результатов работы системы ССА

 
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.


Другие новости по теме:
  • Skype анонсировала транслятор голоса в текст, но не для русского языка
  • MWC: Ericsson представил технологию, обеспечивающую Hi-Fi качество передачи ...
  • Galaxy Nexus- Голосовой диктант
  • Мобильные телефоны. Польза и комфорт
  • MWC: ABBYY представила решение для мгновенного перевода на мобильных устрой ...
  • Корпоративные тарифные планы МТС
  • MWC: Представлен новый представитель E-Series Nokia E55
  • Поговорим о совместимости?
  • Купить электронную книгу очень просто
  • Как выбрать жесткий диск – советы

  • Happy-BOX
    Это сборник смс-поздравлений с функцией анонимной отправки. Поздравь друзей!
    Скачать
    Joke-BOX
    Это сборник прикольных смс-сообщений с функцией анонимной отправки. Прикольнись над друзьями!
    Скачать

    Информация
    Посетители, находящиеся в группе Гости, не могут оставлять комментарии в данной новости.




     
    Copyright © 2006 - 2010 omobile.ru. Все права защищены.| Design | Статьи партнёров
    Информация, размещенная на данном сервере, предназначена исключительно для частного использования. Ни владелец сайта, ни хостинг-провайдер не могут нести никакой ответственности за любое использование материалов данного сайта. | Google sitemap | Yandex Sitemap |

    Rambler's Top100