Omnilingual MT: Maschinelle Übersetzung für 1.600 Sprachen

Zusammenfassung

Hochwertige maschinelle Übersetzung (MT) kann auf Hunderte von Sprachen skaliert werden und setzt damit hohe Maßstäbe für mehrsprachige Systeme. Verglichen mit den rund 7.000 Sprachen der Welt bieten aktuelle Systeme jedoch nach wie vor nur eine begrenzte Abdeckung: etwa 200 Sprachen auf der Zielseite und möglicherweise einige Hundert weitere auf der Quellseite, die durch cross-lingualen Transfer unterstützt werden. Selbst diese Zahlen waren aufgrund fehlender zuverlässiger Benchmarks und Metriken schwer zu bewerten. Wir stellen Omnilingual Machine Translation (OMT) vor, das erste MT-System, das mehr als 1.600 Sprachen unterstützt. Dieser Umfang wird durch eine umfassende Datenstrategie ermöglicht, die große öffentliche mehrsprachige Korpora mit neu erstellten Datensätzen integriert, einschließlich manuell kuratiertem MeDLEY-Bitext. Wir untersuchen zwei Möglichkeiten, ein Large Language Model (LLM) für maschinelle Übersetzung zu spezialisieren: als Decoder-only-Modell (OMT-LLaMA) oder als Modul in einer Encoder-Decoder-Architektur (OMT-NLLB). Bemerkenswerterweise übertreffen oder erreichen alle unsere Modelle mit 1B bis 8B Parametern die MT-Leistung eines 70B-LLM-Basismodells, was einen klaren Spezialisierungsvorteil offenbart und hohe Übersetzungsqualität auch bei geringen Rechenressourcen ermöglicht. Darüber hinaus zeigt unsere Auswertung von Englisch-zu-1.600-Übersetzungen, dass Basismodelle zwar untersupportete Sprachen interpretieren können, aber häufig scheitern, sie mit aussagekräftiger Treue zu generieren; OMT-LLaMA-Modelle erweitern die Anzahl der Sprachen, für die eine kohärente Generierung möglich ist, erheblich. Zusätzlich verbessern OMT-Modelle den cross-lingualen Transfer und kommen der Lösung des "Verstehens"-Teils des MT-Puzzles für die 1.600 evaluierten Sprachen nahe. Unser Leaderboard und unsere wichtigsten, von Menschen erstellten Evaluierungsdatensätze (BOUQuET und Met-BOUQuET) entwickeln sich dynamisch in Richtung Omnilingualität weiter und sind frei verfügbar.

English

High-quality machine translation (MT) can scale to hundreds of languages, setting a high bar for multilingual systems. However, compared to the world's 7,000 languages, current systems still offer only limited coverage: about 200 languages on the target side, and maybe a few hundreds more on the source side, supported due to cross-lingual transfer. And even these numbers have been hard to evaluate due to the lack of reliable benchmarks and metrics. We present Omnilingual Machine Translation (OMT), the first MT system supporting more than 1,600 languages. This scale is enabled by a comprehensive data strategy that integrates large public multilingual corpora with newly created datasets, including manually curated MeDLEY bitext. We explore two ways of specializing a Large Language model (LLM) for machine translation: as a decoder-only model (OMT-LLaMA) or as a module in an encoder-decoder architecture (OMT-NLLB). Notably, all our 1B to 8B parameter models match or exceed the MT performance of a 70B LLM baseline, revealing a clear specialization advantage and enabling strong translation quality in low-compute settings. Moreover, our evaluation of English-to-1,600 translations further shows that while baseline models can interpret undersupported languages, they frequently fail to generate them with meaningful fidelity; OMT-LLaMA models substantially expand the set of languages for which coherent generation is feasible. Additionally, OMT models improve in cross-lingual transfer, being close to solving the "understanding" part of the puzzle in MT for the 1,600 evaluated. Our leaderboard and main human-created evaluation datasets (BOUQuET and Met-BOUQuET) are dynamically evolving towards Omnilinguality and freely available.

Omnilingual MT: Maschinelle Übersetzung für 1.600 Sprachen

Omnilingual MT: Machine Translation for 1,600 Languages

Zusammenfassung

Support