Омнилингвальный машинный перевод: машинный перевод для 1600 языков

Аннотация

Высококачественный машинный перевод (МП) может масштабироваться на сотни языков, устанавливая высокую планку для многоязычных систем. Однако по сравнению с 7000 языками мира современные системы по-прежнему предлагают лишь ограниченное покрытие: около 200 языков на стороне перевода и, возможно, еще несколько сотен на стороне исходного языка, поддерживаемых благодаря кросс-лингвальному переносу. И даже эти цифры было сложно оценить из-за отсутствия надежных бенчмарков и метрик. Мы представляем Omnilingual Machine Translation (OMT) — первую систему МП, поддерживающую более 1600 языков. Такой масштаб стал возможен благодаря комплексной стратегии работы с данными, которая объединяет крупные публичные многоязычные корпусы с вновь созданными наборами данных, включая тщательно отобранный параллельный корпус MeDLEY. Мы исследуем два способа специализации большой языковой модели (LLM) для машинного перевода: как декодер-only модель (OMT-LLaMA) или как модуль в архитектуре энкодер-декодер (OMT-NLLB). Примечательно, что все наши модели объемом от 1 до 8 миллиардов параметров соответствуют или превосходят по качеству перевода базовую LLM на 70 миллиардов параметров, демонстрируя явное преимущество специализации и обеспечивая высокое качество перевода в условиях ограниченных вычислительных ресурсов. Более того, наша оценка переводов с английского на 1600 языков дополнительно показывает, что, хотя базовые модели могут интерпретировать слабоподдерживаемые языки, они часто не способны генерировать их с осмысленной точностью; модели OMT-LLaMA существенно расширяют набор языков, для которых возможно связное порождение текста. Кроме того, модели OMT демонстрируют улучшение в кросс-лингвальном переносе, приближаясь к решению «понимающей» части головоломки МП для 1600 оцениваемых языков. Наша таблица лидеров и основные созданные человеком оценочные наборы данных (BOUQuET и Met-BOUQuET) динамично развиваются в сторону омнилингвальности и находятся в свободном доступе.

English

High-quality machine translation (MT) can scale to hundreds of languages, setting a high bar for multilingual systems. However, compared to the world's 7,000 languages, current systems still offer only limited coverage: about 200 languages on the target side, and maybe a few hundreds more on the source side, supported due to cross-lingual transfer. And even these numbers have been hard to evaluate due to the lack of reliable benchmarks and metrics. We present Omnilingual Machine Translation (OMT), the first MT system supporting more than 1,600 languages. This scale is enabled by a comprehensive data strategy that integrates large public multilingual corpora with newly created datasets, including manually curated MeDLEY bitext. We explore two ways of specializing a Large Language model (LLM) for machine translation: as a decoder-only model (OMT-LLaMA) or as a module in an encoder-decoder architecture (OMT-NLLB). Notably, all our 1B to 8B parameter models match or exceed the MT performance of a 70B LLM baseline, revealing a clear specialization advantage and enabling strong translation quality in low-compute settings. Moreover, our evaluation of English-to-1,600 translations further shows that while baseline models can interpret undersupported languages, they frequently fail to generate them with meaningful fidelity; OMT-LLaMA models substantially expand the set of languages for which coherent generation is feasible. Additionally, OMT models improve in cross-lingual transfer, being close to solving the "understanding" part of the puzzle in MT for the 1,600 evaluated. Our leaderboard and main human-created evaluation datasets (BOUQuET and Met-BOUQuET) are dynamically evolving towards Omnilinguality and freely available.

Омнилингвальный машинный перевод: машинный перевод для 1600 языков

Omnilingual MT: Machine Translation for 1,600 Languages

Аннотация

Support