Вопросы и Ответы

Какие существуют основные подходы к машинному переводу

0

Compreno — это технология перевода с естественного языка на универсальный язык понятий, разработанная российской ИТ-компанией ABBYY. Основу технологии составляет Универсальная семантическая иерархия (УСИ) — ядро языка понятий, которое насчитывает сегодня 60 тысяч элементов в универсальном разделе когнитивной модели, 80 тысяч — в русском разделе, и 90 тысяч — в английском.

Одно из основных применений Compreno — системы машинного перевода качественно нового уровня. До сих пор применяются в основном две модели автоматизированного перевода:

  • перевод на основе правил (Rule-Based Translation Model, RBTM), используемый, например, в переводчике ПРОМТ;
  • статистическая модель перевода, применяемая, например, в сервисе Google Translate.

Главный недостаток RBTM состоит в том, что она не учитывают семантику, то есть смысла переводимых текстов, а просто применяет правила преобразования синтаксических конструкций одного языка в синтаксические конструкции другого.

Статистическая модель опирается на обширную базу данных образцов перевода, собираемую по Интернету. Однако качественный перевод при этом получается только для популярных языковых пар и только по широко распространенным тематикам.

Проект Compreno реализует алгоритм машинного перевода нового поколения, основанный на УСИ. Вот его основные этапы:

  • лексический анализ текста (выделение слов, знаков препинания, цифр и прочих текстовых единиц);
  • морфологический анализ (определение грамматических характеристик лексем);
  • синтаксический анализ (установление структуры предложения);
  • семантический анализ (выявление выражаемого значения в системе языка);
  • синтез из универсальной семантической структуры предложения на выходном языке.

В результате подбор слов для перевода осуществляется не напрямую из первого языка, а из понятийного набора, который, условно говоря, «висит» на той же ветке универсального семантического древа, но только уже со стороны второго языка.

Использование технологии Compreno не ограничивается машинным переводом. Вот некоторые другие области ее возможного применения:

  • полноценный интеллектуальный поиск (поиск по смыслу);
  • извлечение фактов и связей между объектами поиска/мониторинга;
  • мониторинг компаний и персоналий;
  • классификация документов и поиска похожих по смыслу документов;
  • реферирование и аннотирование (составление краткого содержания) длинных документов;
  • анализ тональности в мониторинге;
  • системы искусственного интеллекта самых разнообразных профилей и применений;
  • автоматическое распознавание речи.

По словам президента ABBYY Сергея Андреева в создании технологии Compreno компания инвестировала $50 млн собственных средств, над проектом работают около 300 специалистов, которые уже затратили на проект тысячу человеколет. Коммерческие продукты на основе новой технологии должны появится в 2014−2015 годах.

На февраль 2012 года мировых аналогов у Compreno нет, хотя в некоторых университетах и ведутся разработки в аналогичных направлениях. Однако фора в 15 лет, задействованные огромные человеческие ресурсы и материальные затраты позволяют надеяться, что ABBYY таки сумеет застолбить для себя эксклюзивное место первопроходца. На руку компании играет и то обстоятельство, что последние 10 лет подавляющая масса исследований в мире велась в русле статистической модели машинного перевода.

Самым узким местом для глобального применения семантико-синтаксического анализа в массовых поисковых системах выступают очень высокие требования к компьютерным мощностям, необходимым для индексации информационных массивов на понятийном уровне. Требования эти несоизмеримо выше, чем при существующих формах традиционной индексации. Впрочем, уже сегодня методика семантико-синтаксического анализа может эффективно применяться для более целенаправленного и узкого поиска в закрытых корпоративных системах.

Реагируя на публиккации о системе Compreno в «Компьютерре» и в газете «Коммерсантъ Наука», редакция сайта по информационным технологиям «Роем.ру» отмечает: «Удивляет, что в обоих случаях никто не пишет о том, как ему дали самостоятельно попереводить текст при помощи Compreno».

YouTube

 Изменить 

Ещё Какие суще

Какие существительные имеют окончание -ов в форме множественного числа родительного падежа существительных (нет помидоров, мандаринов и т.п. ) | Вопрос и Ответ
Пять граммов или пять грамм? Окончание -ов в форме родительного падежа множественного числа характерно для большей части существительных мужского рода, в начальной

Какие существуют виды женского оргазма | Вопрос и Ответ
Оргазм Виртуальная реальностьМягкий и расслабляющий, этот вид оргазма легко достигается и без помощи партнера. После определенной тренировки, конечно. Как достичь? Для того

Какие существуют программы для настройки гитары | Вопрос и Ответ
Существует множество способов настройки гитары. Способ первый. Распространенный Известно, что первая струна на пятом ладу — это «ля» первой октавы. По

Какие существуют сорта и виды кофе | Вопрос и Ответ
Кофе (араб. qahwa "возбуждающий напиток") — напиток (обычно горячий), изготавливаемый из жареных зёрен кофейного дерева. Благодаря содержанию кофеина, оказывает стимулирующее

Какие существуют формы геральдических щитов | Вопрос и Ответ
Геральдический щит (гербовый щит) — это условно изображённый стилизованный щит признанной в геральдической традиции формы, либо характерной конструкции (павеза), несущий на своей лицевой

Какие существуют определения гармонии | Вопрос и Ответ
Гармония (Словарь терминов и понятий по обществознанию А.М. Лопухова) ГАРМОНИЯ — созвучие, согласие, согласованность частей в нерасчлененном целом; согласованность действий,

Какие существуют виды вагинизма | Вопрос и Ответ
Внимание! Вся информация предоставляется исключительно в ознакомительных целях. Поставить правильный диагноз и назначить соответствующее лечение может только врач! Вагинизм — одно

Какие существуют токсические признаки проявления употребления высоких доз (передозировки) | Вопрос и Ответ
Марихуана (исп. marijuana) — это наркотическое вещество (на вид зеленовато-серое, редко коричневое) из сушеных и измельченных листьев, стеблей, семян и цветов конопли (канабиса), которое

Какие существуют версии о смерти Дельфины Лалори | Вопрос и Ответ
Мэри Дельфина Лалори (урожденная Макарти; 1775—1849 годы) — представительница американской знати, более известная как мадам Лалори — одна из самых жестоких женщин-убийц в истории

Какие существуют модификации автоматической винтовки M16 | Вопрос и Ответ
М16 (официальное обозначение — Rifle, Caliber 5.56 mm, M16) — американская автоматическая винтовка калибра 5,56 мм, разработанная на базе винтовки AR-10 и принятая на вооружение в

Фото Компьютеры

 Изменить 
Какие существуют модификации автоматической винтовки M16