英語を超えて:LLMによる包括的かつスケーラブルな多言語機械翻訳に向けて
Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs
November 10, 2025
著者: Yingfeng Luo, Ziqiang Xu, Yuxuan Ouyang, Murun Yang, Dingyang Lin, Kaiyan Chang, Tong Zheng, Bei Li, Peinan Feng, Quan Du, Tong Xiao, Jingbo Zhu
cs.AI
要旨
大規模言語モデルは多言語機械翻訳(MMT)を大幅に進展させたが、広範な言語対応、一貫した翻訳品質、英語中心バイアスといった課題は未解決である。これらの課題に対処するため、我々は中国語と英語を中核とし、60言語・234翻訳方向をカバーする大規模多言語翻訳モデル群「LMT」を提案する。開発過程で、対称的な多方向ファインチューニングデータが逆向き翻訳(X→En/Zh)を過度に強調することで、過剰な多対一マッピングと翻訳品質の劣化を招く「方向性退化」という現象を見出した。この退化を軽減するため、単純かつ効果的な手法「戦略的ダウンサンプリング」を提案する。さらに、類型論的に関連する補助言語を活用して言語間転移を強化する「並列多言語プロンプティング(PMP)」を設計した。厳格なデータ精選と洗練された適応戦略により、LMTは同等の言語対応範囲を持つモデルの中でSOTA性能を達成し、特に4Bモデル(LMT-60-4B)は遥かに大規模なAya-101-13BやNLLB-54Bモデルを大幅に上回った。包括的・拡張性の高い高品質MMTの研究促進と強力なベースライン提供のため、4サイズ(0.6B/1.7B/4B/8B)のLMTを公開する(https://github.com/NiuTrans/LMT)。
English
Large language models have significantly advanced Multilingual Machine Translation (MMT), yet the broad language coverage, consistent translation quality, and English-centric bias remain open challenges. To address these challenges, we introduce LMT, a suite of Large-scale Multilingual Translation models centered on both Chinese and English, covering 60 languages and 234 translation directions. During development, we identify a previously overlooked phenomenon of directional degeneration, where symmetric multi-way fine-tuning data overemphasize reverse directions (X to En/Zh), leading to excessive many-to-one mappings and degraded translation quality. We propose Strategic Downsampling, a simple yet effective method to mitigate this degeneration. In addition, we design Parallel Multilingual Prompting (PMP), which leverages typologically related auxiliary languages to enhance cross-lingual transfer. Through rigorous data curation and refined adaptation strategies, LMT achieves SOTA performance among models of comparable language coverage, with our 4B model (LMT-60-4B) surpassing the much larger Aya-101-13B and NLLB-54B models by a substantial margin. We release LMT in four sizes (0.6B/1.7B/4B/8B) to catalyze future research and provide strong baselines for inclusive, scalable, and high-quality MMT \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.