Voorbij het Engels: Op weg naar inclusieve en schaalbare meertalige machinevertaling met LLM's
Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs
November 10, 2025
Auteurs: Yingfeng Luo, Ziqiang Xu, Yuxuan Ouyang, Murun Yang, Dingyang Lin, Kaiyan Chang, Tong Zheng, Bei Li, Peinan Feng, Quan Du, Tong Xiao, Jingbo Zhu
cs.AI
Samenvatting
Grote taalmodel(len) hebben een aanzienlijke vooruitgang geboekt op het gebied van meertalige automatische vertaling (MMT), maar brede taaldekking, consistente vertaalkwaliteit en Engelstalige vertekening blijven uitdagingen. Om deze problemen aan te pakken, introduceren we LMT, een reeks grootschalige meertalige vertaalmodellen gecentreerd rond zowel Chinees als Engels, die 60 talen en 234 vertaalrichtingen bestrijken. Tijdens de ontwikkeling identificeren we een voorheen over het hoofd gezien fenomeen van directionele degeneratie, waarbij symmetrische multi-way fine-tuning data de omgekeerde richtingen (X naar En/Zh) overbenadrukken, wat leidt tot excessieve many-to-one mapping en verslechterde vertaalkwaliteit. We stellen Strategische Downsampling voor, een eenvoudige maar effectieve methode om deze degeneratie te verminderen. Daarnaast ontwerpen we Parallel Multilingual Prompting (PMP), dat gebruikmaakt van typologisch verwante hulptalen om cross-linguale transfer te verbeteren. Door rigoureuze datacuratie en verfijnde adaptatiestrategieën bereikt LMT state-of-the-art prestaties onder modellen met vergelijkbare taaldekking, waarbij ons 4B-model (LMT-60-4B) de aanzienlijk grotere Aya-101-13B- en NLLB-54B-modellen met ruime marge overtreft. We brengen LMT uit in vier formaten (0.6B/1.7B/4B/8B) om toekomstig onderzoek te katalyseren en sterke basislijnen te bieden voor inclusieve, schaalbare en hoogwaardige MMT \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
English
Large language models have significantly advanced Multilingual Machine Translation (MMT), yet the broad language coverage, consistent translation quality, and English-centric bias remain open challenges. To address these challenges, we introduce LMT, a suite of Large-scale Multilingual Translation models centered on both Chinese and English, covering 60 languages and 234 translation directions. During development, we identify a previously overlooked phenomenon of directional degeneration, where symmetric multi-way fine-tuning data overemphasize reverse directions (X to En/Zh), leading to excessive many-to-one mappings and degraded translation quality. We propose Strategic Downsampling, a simple yet effective method to mitigate this degeneration. In addition, we design Parallel Multilingual Prompting (PMP), which leverages typologically related auxiliary languages to enhance cross-lingual transfer. Through rigorous data curation and refined adaptation strategies, LMT achieves SOTA performance among models of comparable language coverage, with our 4B model (LMT-60-4B) surpassing the much larger Aya-101-13B and NLLB-54B models by a substantial margin. We release LMT in four sizes (0.6B/1.7B/4B/8B) to catalyze future research and provide strong baselines for inclusive, scalable, and high-quality MMT \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.