MT omnilingue : traduction automatique pour 1 600 langues

Résumé

La traduction automatique (TA) de haute qualité peut être déployée à l'échelle de centaines de langues, établissant ainsi un niveau de référence élevé pour les systèmes multilingues. Cependant, comparé aux 7 000 langues parlées dans le monde, les systèmes actuels n'offrent encore qu'une couverture limitée : environ 200 langues côté cible, et peut-être quelques centaines de plus côté source, prises en charge grâce au transfert translinguistique. Et même ces chiffres ont été difficiles à évaluer en raison du manque de benchmarks et de métriques fiables. Nous présentons Omnilingual Machine Translation (OMT), le premier système de TA prenant en charge plus de 1 600 langues. Cette échelle est rendue possible par une stratégie de données exhaustive qui intègre de grands corpus multilingues publics avec des jeux de données nouvellement créés, incluant le bitext MeDLEY soigneusement curaté manuellement. Nous explorons deux méthodes pour spécialiser un grand modèle de langage (LLM) à la traduction automatique : en tant que modèle décodeur uniquement (OMT-LLaMA) ou en tant que module dans une architecture encodeur-décodeur (OMT-NLLB). Il est notable que tous nos modèles de 1 à 8 milliards de paramètres égalent ou dépassent les performances en TA d'un modèle de référence LLM de 70B, révélant un net avantage à la spécialisation et permettant une qualité de traduction robuste dans des contextes à faible puissance de calcul. De plus, notre évaluation des traductions de l'anglais vers 1 600 langues montre que si les modèles de référence peuvent interpréter des langues peu prises en charge, ils échouent fréquemment à les générer avec une fidélité significative ; les modèles OMT-LLaMA étendent substantiellement l'ensemble des langues pour lesquelles une génération cohérente est réalisable. Par ailleurs, les modèles OMT s'améliorent en transfert translinguistique, s'approchant de la résolution de la partie "compréhension" du puzzle de la TA pour les 1 600 langues évaluées. Notre classique (leaderboard) et nos principaux jeux de données d'évaluation créés par des humains (BOUQuET et Met-BOUQuET) évoluent dynamiquement vers l'omnilinguisme et sont librement accessibles.

English

High-quality machine translation (MT) can scale to hundreds of languages, setting a high bar for multilingual systems. However, compared to the world's 7,000 languages, current systems still offer only limited coverage: about 200 languages on the target side, and maybe a few hundreds more on the source side, supported due to cross-lingual transfer. And even these numbers have been hard to evaluate due to the lack of reliable benchmarks and metrics. We present Omnilingual Machine Translation (OMT), the first MT system supporting more than 1,600 languages. This scale is enabled by a comprehensive data strategy that integrates large public multilingual corpora with newly created datasets, including manually curated MeDLEY bitext. We explore two ways of specializing a Large Language model (LLM) for machine translation: as a decoder-only model (OMT-LLaMA) or as a module in an encoder-decoder architecture (OMT-NLLB). Notably, all our 1B to 8B parameter models match or exceed the MT performance of a 70B LLM baseline, revealing a clear specialization advantage and enabling strong translation quality in low-compute settings. Moreover, our evaluation of English-to-1,600 translations further shows that while baseline models can interpret undersupported languages, they frequently fail to generate them with meaningful fidelity; OMT-LLaMA models substantially expand the set of languages for which coherent generation is feasible. Additionally, OMT models improve in cross-lingual transfer, being close to solving the "understanding" part of the puzzle in MT for the 1,600 evaluated. Our leaderboard and main human-created evaluation datasets (BOUQuET and Met-BOUQuET) are dynamically evolving towards Omnilinguality and freely available.

MT omnilingue : traduction automatique pour 1 600 langues

Omnilingual MT: Machine Translation for 1,600 Languages

Résumé

Support