MT Omnilingue: Traduzione Automatica per 1.600 Lingue

Abstract

La traduzione automatica (MT) di alta qualità può essere scalata su centinaia di lingue, stabilendo un punto di riferimento elevato per i sistemi multilingue. Tuttavia, rispetto alle 7.000 lingue del mondo, i sistemi attuali offrono ancora una copertura limitata: circa 200 lingue sul lato target, e forse poche centinaia in più sul lato sorgente, supportate grazie al trasferimento cross-linguale. E persino questi numeri sono stati difficili da valutare a causa della mancanza di benchmark e metriche affidabili. Presentiamo Omnilingual Machine Translation (OMT), il primo sistema MT che supporta oltre 1.600 lingue. Questa scala è resa possibile da una strategia dati completa che integra grandi corpora multilingue pubblici con dataset di nuova creazione, incluso il bitext MeDLEY curato manualmente. Esploriamo due modi per specializzare un modello linguistico di grandi dimensioni (LLM) per la traduzione automatica: come modello decoder-only (OMT-LLaMA) o come modulo in un'architettura encoder-decoder (OMT-NLLB). Significativamente, tutti i nostri modelli da 1B a 8B di parametri eguagliano o superano le prestazioni MT di un baseline LLM da 70B, rivelando un chiaro vantaggio di specializzazione e consentendo una forte qualità di traduzione in contesti con risorse computazionali limitate. Inoltre, la nostra valutazione delle traduzioni dall'inglese a 1.600 lingue mostra ulteriormente che, sebbene i modelli baseline possano interpretare lingue poco supportate, spesso falliscono nel generarli con una fedeltà significativa; i modelli OMT-LLaMA espandono sostanzialmente l'insieme di lingue per cui è possibile una generazione coerente. In aggiunta, i modelli OMT migliorano nel trasferimento cross-linguale, avvicinandosi a risolvere la parte di "comprensione" del puzzle nella MT per le 1.600 lingue valutate. La nostra classifica e i principali dataset di valutazione creati da umani (BOUQuET e Met-BOUQuET) si stanno evolvendo dinamicamente verso l'onnilinguità e sono liberamente disponibili.

English

High-quality machine translation (MT) can scale to hundreds of languages, setting a high bar for multilingual systems. However, compared to the world's 7,000 languages, current systems still offer only limited coverage: about 200 languages on the target side, and maybe a few hundreds more on the source side, supported due to cross-lingual transfer. And even these numbers have been hard to evaluate due to the lack of reliable benchmarks and metrics. We present Omnilingual Machine Translation (OMT), the first MT system supporting more than 1,600 languages. This scale is enabled by a comprehensive data strategy that integrates large public multilingual corpora with newly created datasets, including manually curated MeDLEY bitext. We explore two ways of specializing a Large Language model (LLM) for machine translation: as a decoder-only model (OMT-LLaMA) or as a module in an encoder-decoder architecture (OMT-NLLB). Notably, all our 1B to 8B parameter models match or exceed the MT performance of a 70B LLM baseline, revealing a clear specialization advantage and enabling strong translation quality in low-compute settings. Moreover, our evaluation of English-to-1,600 translations further shows that while baseline models can interpret undersupported languages, they frequently fail to generate them with meaningful fidelity; OMT-LLaMA models substantially expand the set of languages for which coherent generation is feasible. Additionally, OMT models improve in cross-lingual transfer, being close to solving the "understanding" part of the puzzle in MT for the 1,600 evaluated. Our leaderboard and main human-created evaluation datasets (BOUQuET and Met-BOUQuET) are dynamically evolving towards Omnilinguality and freely available.

MT Omnilingue: Traduzione Automatica per 1.600 Lingue

Omnilingual MT: Machine Translation for 1,600 Languages

Abstract

Support