Omnilingual MT: Tradução Automática para 1.600 Idiomas

Resumo

A tradução automática (TA) de alta qualidade pode ser dimensionada para centenas de idiomas, estabelecendo um padrão elevado para sistemas multilíngues. No entanto, em comparação com as 7.000 línguas do mundo, os sistemas atuais ainda oferecem uma cobertura limitada: cerca de 200 idiomas no lado do destino e, talvez, algumas centenas a mais no lado da fonte, suportadas devido à transferência cross-lingual. E mesmo esses números têm sido difíceis de avaliar devido à falta de benchmarks e métricas confiáveis. Apresentamos a Tradução Automática Omnilingue (OMT), o primeiro sistema de TA a suportar mais de 1.600 idiomas. Esta escala é possibilitada por uma estratégia abrangente de dados que integra grandes corpora multilíngues públicos com conjuntos de dados recém-criados, incluindo o *bitext* MeDLEY, curado manualmente. Exploramos duas formas de especializar um Modelo de Linguagem de Grande Escala (LLM) para tradução automática: como um modelo *decoder-only* (OMT-LLaMA) ou como um módulo numa arquitetura *encoder-decoder* (OMT-NLLB). Notavelmente, todos os nossos modelos com 1B a 8B de parâmetros igualam ou superam o desempenho em TA de uma linha de base de LLM de 70B, revelando uma clara vantagem de especialização e permitindo uma forte qualidade de tradução em ambientes de baixo poder computacional. Além disso, a nossa avaliação de traduções do inglês para 1.600 idiomas mostra ainda que, embora os modelos de base possam interpretar línguas com suporte insuficiente, falham frequentemente em gerá-las com uma fidelidade significativa; os modelos OMT-LLaMA expandem substancialmente o conjunto de línguas para as quais a geração coerente é viável. Adicionalmente, os modelos OMT melhoram na transferência cross-lingual, estando próximos de resolver a parte da "compreensão" do quebra-cabeças na TA para os 1.600 idiomas avaliados. O nosso *leaderboard* e os principais conjuntos de dados de avaliação criados por humanos (BOUQuET e Met-BOUQuET) estão a evoluir dinamicamente para a Omnilingualidade e estão livremente disponíveis.

English

High-quality machine translation (MT) can scale to hundreds of languages, setting a high bar for multilingual systems. However, compared to the world's 7,000 languages, current systems still offer only limited coverage: about 200 languages on the target side, and maybe a few hundreds more on the source side, supported due to cross-lingual transfer. And even these numbers have been hard to evaluate due to the lack of reliable benchmarks and metrics. We present Omnilingual Machine Translation (OMT), the first MT system supporting more than 1,600 languages. This scale is enabled by a comprehensive data strategy that integrates large public multilingual corpora with newly created datasets, including manually curated MeDLEY bitext. We explore two ways of specializing a Large Language model (LLM) for machine translation: as a decoder-only model (OMT-LLaMA) or as a module in an encoder-decoder architecture (OMT-NLLB). Notably, all our 1B to 8B parameter models match or exceed the MT performance of a 70B LLM baseline, revealing a clear specialization advantage and enabling strong translation quality in low-compute settings. Moreover, our evaluation of English-to-1,600 translations further shows that while baseline models can interpret undersupported languages, they frequently fail to generate them with meaningful fidelity; OMT-LLaMA models substantially expand the set of languages for which coherent generation is feasible. Additionally, OMT models improve in cross-lingual transfer, being close to solving the "understanding" part of the puzzle in MT for the 1,600 evaluated. Our leaderboard and main human-created evaluation datasets (BOUQuET and Met-BOUQuET) are dynamically evolving towards Omnilinguality and freely available.

Omnilingual MT: Tradução Automática para 1.600 Idiomas

Omnilingual MT: Machine Translation for 1,600 Languages

Resumo

Support