ChatPaper.aiChatPaper

Oltre l'inglese: verso una traduzione automatica multilingue inclusiva e scalabile con i LLM

Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

November 10, 2025
Autori: Yingfeng Luo, Ziqiang Xu, Yuxuan Ouyang, Murun Yang, Dingyang Lin, Kaiyan Chang, Tong Zheng, Bei Li, Peinan Feng, Quan Du, Tong Xiao, Jingbo Zhu
cs.AI

Abstract

I modelli linguistici di grandi dimensioni hanno significativamente avanzato la traduzione automatica multilingue (MMT), ma l'ampia copertura linguistica, la qualità di traduzione coerente e la tendenza anglocentrica rimangono sfide aperte. Per affrontare queste sfide, introduciamo LMT, una suite di modelli di traduzione multilingue su larga scala incentrati sia sul cinese che sull'inglese, che copre 60 lingue e 234 direzioni di traduzione. Durante lo sviluppo, abbiamo identificato un fenomeno precedentemente trascurato di degenerazione direzionale, in cui i dati di fine-tuning multi-direzionale simmetrici enfatizzano eccessivamente le direzioni inverse (da X a En/Zh), portando a mappature eccessive many-to-one e a un degrado della qualità di traduzione. Proponiamo lo Strategic Downsampling, un metodo semplice ma efficace per mitigare questa degenerazione. Inoltre, progettiamo il Parallel Multilingual Prompting (PMP), che sfrutta lingue ausiliarie tipologicamente correlate per potenziare il trasferimento cross-linguistico. Attraverso una rigorosa cura dei dati e strategie di adattamento raffinate, LMT raggiunge prestazioni allo stato dell'arte tra i modelli con copertura linguistica comparabile, con il nostro modello da 4B (LMT-60-4B) che supera di ampio margine i modelli molto più grandi Aya-101-13B e NLLB-54B. Rilasciamo LMT in quattro dimensioni (0.6B/1.7B/4B/8B) per catalizzare la ricerca futura e fornire solide baseline per una MMT inclusiva, scalabile e di alta qualità \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
English
Large language models have significantly advanced Multilingual Machine Translation (MMT), yet the broad language coverage, consistent translation quality, and English-centric bias remain open challenges. To address these challenges, we introduce LMT, a suite of Large-scale Multilingual Translation models centered on both Chinese and English, covering 60 languages and 234 translation directions. During development, we identify a previously overlooked phenomenon of directional degeneration, where symmetric multi-way fine-tuning data overemphasize reverse directions (X to En/Zh), leading to excessive many-to-one mappings and degraded translation quality. We propose Strategic Downsampling, a simple yet effective method to mitigate this degeneration. In addition, we design Parallel Multilingual Prompting (PMP), which leverages typologically related auxiliary languages to enhance cross-lingual transfer. Through rigorous data curation and refined adaptation strategies, LMT achieves SOTA performance among models of comparable language coverage, with our 4B model (LMT-60-4B) surpassing the much larger Aya-101-13B and NLLB-54B models by a substantial margin. We release LMT in four sizes (0.6B/1.7B/4B/8B) to catalyze future research and provide strong baselines for inclusive, scalable, and high-quality MMT \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
PDF322December 2, 2025