Omnilingual MT: Machinaal Vertalen voor 1.600 Talen

Samenvatting

Hoogwaardige machinevertaling (MT) kan worden opgeschaald naar honderden talen, wat een hoge lat legt voor meertalige systemen. Vergeleken met de 7.000 talen in de wereld bieden huidige systemen echter nog steeds slechts beperkte dekking: ongeveer 200 talen aan de doeltaalzijde, en mogelijk enkele honderden meer aan de brontaalzijde, ondersteund dankzij cross-linguale transfer. Zelfs deze aantallen zijn moeilijk te evalueren geweest door een gebrek aan betrouwbare benchmarks en metrieken. Wij presenteren Omnilingual Machine Translation (OMT), het eerste MT-systeem dat meer dan 1.600 talen ondersteunt. Deze schaal wordt mogelijk gemaakt door een uitgebreide datastrategie die grote openbare meertalige corpora integreert met nieuw gecreëerde datasets, inclusief handmatig gecureerde MeDLEY-bitext. Wij onderzoeken twee manieren om een groot taalmodel (LLM) te specialiseren voor machinevertaling: als een decoder-only model (OMT-LLaMA) of als een module in een encoder-decoder architectuur (OMT-NLLB). Opmerkelijk is dat al onze modellen met 1B tot 8B parameters evenaren of overtreffen de MT-prestaties van een 70B LLM-basislijn, wat een duidelijk specialisatievoordeel onthult en sterke vertaalkwaliteit mogelijk maakt in settings met beperkte rekenkracht. Bovendien toont onze evaluatie van Engels-naar-1.600-talen vertalingen verder aan dat, hoewel basislijnmodellen ondermaatst ondersteunde talen kunnen interpreteren, ze er vaak niet in slagen deze te genereren met betekenisvolle trouw; OMT-LLaMA-modellen breiden de set talen waarvoor coherente generatie haalbaar is aanzienlijk uit. Daarnaast verbeteren OMT-modellen in cross-linguale transfer en komen ze dicht bij het oplossen van het "begrips"-deel van de puzzel in MT voor de 1.600 geëvalueerde talen. Onze leaderboard en belangrijkste door mensen gemaakte evaluatiedatasets (BOUQuET en Met-BOUQuET) evolueren dynamisch richting Omnilingualiteit en zijn vrij beschikbaar.

English

High-quality machine translation (MT) can scale to hundreds of languages, setting a high bar for multilingual systems. However, compared to the world's 7,000 languages, current systems still offer only limited coverage: about 200 languages on the target side, and maybe a few hundreds more on the source side, supported due to cross-lingual transfer. And even these numbers have been hard to evaluate due to the lack of reliable benchmarks and metrics. We present Omnilingual Machine Translation (OMT), the first MT system supporting more than 1,600 languages. This scale is enabled by a comprehensive data strategy that integrates large public multilingual corpora with newly created datasets, including manually curated MeDLEY bitext. We explore two ways of specializing a Large Language model (LLM) for machine translation: as a decoder-only model (OMT-LLaMA) or as a module in an encoder-decoder architecture (OMT-NLLB). Notably, all our 1B to 8B parameter models match or exceed the MT performance of a 70B LLM baseline, revealing a clear specialization advantage and enabling strong translation quality in low-compute settings. Moreover, our evaluation of English-to-1,600 translations further shows that while baseline models can interpret undersupported languages, they frequently fail to generate them with meaningful fidelity; OMT-LLaMA models substantially expand the set of languages for which coherent generation is feasible. Additionally, OMT models improve in cross-lingual transfer, being close to solving the "understanding" part of the puzzle in MT for the 1,600 evaluated. Our leaderboard and main human-created evaluation datasets (BOUQuET and Met-BOUQuET) are dynamically evolving towards Omnilinguality and freely available.

Omnilingual MT: Machinaal Vertalen voor 1.600 Talen

Omnilingual MT: Machine Translation for 1,600 Languages

Samenvatting

Support