MT Omnilingual: Traducción Automática para 1.600 Idiomas

Resumen

La traducción automática (TA) de alta calidad puede escalar a cientos de idiomas, estableciendo un listón muy alto para los sistemas multilingües. Sin embargo, en comparación con los aproximadamente 7.000 idiomas del mundo, los sistemas actuales aún ofrecen una cobertura limitada: unos 200 idiomas en el lado objetivo (destino), y quizás unos cientos más en el lado fuente, soportados gracias a la transferencia cross-lingüe. Incluso estos números han sido difíciles de evaluar debido a la falta de benchmarks y métricas fiables. Presentamos Traducción Automática Omnilíngüe (OMT), el primer sistema de TA que da soporte a más de 1.600 idiomas. Esta escala es posible gracias a una estrategia de datos integral que combina grandes corpus multilingües públicos con conjuntos de datos recién creados, incluyendo el bitexto MeDLEY, curado manualmente. Exploramos dos formas de especializar un Modelo de Lenguaje Grande (LLM) para traducción automática: como un modelo de solo decodificación (OMT-LLaMA) o como un módulo en una arquitectura codificador-decodificador (OMT-NLLB). Es notable que todos nuestros modelos de 1B a 8B de parámetros igualan o superan el rendimiento en TA de un LLM baseline de 70B, revelando una clara ventaja por especialización y permitiendo una calidad de traducción sólida en entornos con recursos computacionales limitados. Además, nuestra evaluación de traducciones del inglés a 1.600 idiomas muestra que, si bien los modelos baseline pueden interpretar idiomas con poco soporte, frecuentemente fallan al generarlos con una fidelidad significativa; los modelos OMT-LLaMA expanden sustancialmente el conjunto de idiomas para los que es factible una generación coherente. Adicionalmente, los modelos OMT mejoran en la transferencia cross-lingüe, estando cerca de resolver la parte de "comprensión" del rompecabezas en la TA para los 1.600 idiomas evaluados. Nuestro *leaderboard* y los principales conjuntos de datos de evaluación creados por humanos (BOUQuET y Met-BOUQuET) están evolucionando dinámicamente hacia la Omnilinguidad y son de libre acceso.

English

High-quality machine translation (MT) can scale to hundreds of languages, setting a high bar for multilingual systems. However, compared to the world's 7,000 languages, current systems still offer only limited coverage: about 200 languages on the target side, and maybe a few hundreds more on the source side, supported due to cross-lingual transfer. And even these numbers have been hard to evaluate due to the lack of reliable benchmarks and metrics. We present Omnilingual Machine Translation (OMT), the first MT system supporting more than 1,600 languages. This scale is enabled by a comprehensive data strategy that integrates large public multilingual corpora with newly created datasets, including manually curated MeDLEY bitext. We explore two ways of specializing a Large Language model (LLM) for machine translation: as a decoder-only model (OMT-LLaMA) or as a module in an encoder-decoder architecture (OMT-NLLB). Notably, all our 1B to 8B parameter models match or exceed the MT performance of a 70B LLM baseline, revealing a clear specialization advantage and enabling strong translation quality in low-compute settings. Moreover, our evaluation of English-to-1,600 translations further shows that while baseline models can interpret undersupported languages, they frequently fail to generate them with meaningful fidelity; OMT-LLaMA models substantially expand the set of languages for which coherent generation is feasible. Additionally, OMT models improve in cross-lingual transfer, being close to solving the "understanding" part of the puzzle in MT for the 1,600 evaluated. Our leaderboard and main human-created evaluation datasets (BOUQuET and Met-BOUQuET) are dynamically evolving towards Omnilinguality and freely available.

MT Omnilingual: Traducción Automática para 1.600 Idiomas

Omnilingual MT: Machine Translation for 1,600 Languages

Resumen

Support