ChatPaper.aiChatPaper

Au-delà de l'anglais : Vers une traduction automatique multilingue inclusive et évolutive avec les LLM

Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

November 10, 2025
papers.authors: Yingfeng Luo, Ziqiang Xu, Yuxuan Ouyang, Murun Yang, Dingyang Lin, Kaiyan Chang, Tong Zheng, Bei Li, Peinan Feng, Quan Du, Tong Xiao, Jingbo Zhu
cs.AI

papers.abstract

Les grands modèles de langage ont considérablement fait progresser la traduction automatique multilingue (MMT), mais la couverture linguistique étendue, la qualité de traduction cohérente et le biais centré sur l'anglais restent des défis ouverts. Pour relever ces défis, nous présentons LMT, une suite de modèles de traduction multilingue à grande échelle centrés à la fois sur le chinois et l'anglais, couvrant 60 langues et 234 directions de traduction. Lors du développement, nous avons identifié un phénomène précédemment négligé de dégénérescence directionnelle, où les données d'affinage multidirectionnelles symétriques surestiment les directions inverses (X vers En/Zh), conduisant à un excès de mappages plusieurs-à-un et à une dégradation de la qualité de traduction. Nous proposons l'échantillonnage stratégique descendant, une méthode simple mais efficace pour atténuer cette dégénérescence. De plus, nous concevons l'incitation multilingue parallèle (PMP), qui exploite des langues auxiliaires typologiquement apparentées pour améliorer le transfert translinguistique. Grâce à une curation rigoureuse des données et à des stratégies d'adaptation raffinées, LMT atteint des performances de pointe parmi les modèles de couverture linguistique comparable, notre modèle de 4B (LMT-60-4B) surpassant largement les modèles beaucoup plus grands Aya-101-13B et NLLB-54B. Nous publions LMT en quatre tailles (0,6B/1,7B/4B/8B) pour catalyser les recherches futures et fournir des références solides pour une MMT inclusive, évolutive et de haute qualité \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
English
Large language models have significantly advanced Multilingual Machine Translation (MMT), yet the broad language coverage, consistent translation quality, and English-centric bias remain open challenges. To address these challenges, we introduce LMT, a suite of Large-scale Multilingual Translation models centered on both Chinese and English, covering 60 languages and 234 translation directions. During development, we identify a previously overlooked phenomenon of directional degeneration, where symmetric multi-way fine-tuning data overemphasize reverse directions (X to En/Zh), leading to excessive many-to-one mappings and degraded translation quality. We propose Strategic Downsampling, a simple yet effective method to mitigate this degeneration. In addition, we design Parallel Multilingual Prompting (PMP), which leverages typologically related auxiliary languages to enhance cross-lingual transfer. Through rigorous data curation and refined adaptation strategies, LMT achieves SOTA performance among models of comparable language coverage, with our 4B model (LMT-60-4B) surpassing the much larger Aya-101-13B and NLLB-54B models by a substantial margin. We release LMT in four sizes (0.6B/1.7B/4B/8B) to catalyze future research and provide strong baselines for inclusive, scalable, and high-quality MMT \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
PDF322December 2, 2025