ChatPaper.aiChatPaper

Para Além do Inglês: Rumo a uma Tradução Automática Multilíngue Inclusiva e Escalável com LLMs

Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

November 10, 2025
Autores: Yingfeng Luo, Ziqiang Xu, Yuxuan Ouyang, Murun Yang, Dingyang Lin, Kaiyan Chang, Tong Zheng, Bei Li, Peinan Feng, Quan Du, Tong Xiao, Jingbo Zhu
cs.AI

Resumo

Os modelos de linguagem de grande escala avançaram significativamente a Tradução Automática Multilíngue (TAM), mas a ampla cobertura linguística, a qualidade de tradução consistente e o viés centrado no inglês permanecem como desafios em aberto. Para enfrentar esses desafios, apresentamos o LMT, um conjunto de modelos de Tradução Multilíngue de Grande Escala centrado no chinês e no inglês, abrangendo 60 idiomas e 234 direções de tradução. Durante o desenvolvimento, identificamos um fenômeno previamente negligenciado de degeneração direcional, no qual dados de ajuste fino multivia simétricos superenfatizam as direções reversas (X para En/Zh), levando a excessivos mapeamentos muitos-para-um e à degradação da qualidade da tradução. Propomos a Amostragem Estratégica (Strategic Downsampling), um método simples mas eficaz para mitigar essa degeneração. Além disso, projetamos o Prompting Multilíngue Paralelo (PMP), que aproveita línguas auxiliares tipologicamente relacionadas para melhorar a transferência cross-lingual. Por meio de uma curadoria rigorosa de dados e estratégias de adaptação refinadas, o LMT alcança desempenho de estado da arte entre modelos de cobertura linguística comparável, com nosso modelo de 4B (LMT-60-4B) superando os modelos muito maiores Aya-101-13B e NLLB-54B por uma margem substancial. Lançamos o LMT em quatro tamanhos (0.6B/1.7B/4B/8B) para catalisar pesquisas futuras e fornecer bases sólidas para uma TAM inclusiva, escalável e de alta qualidade \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
English
Large language models have significantly advanced Multilingual Machine Translation (MMT), yet the broad language coverage, consistent translation quality, and English-centric bias remain open challenges. To address these challenges, we introduce LMT, a suite of Large-scale Multilingual Translation models centered on both Chinese and English, covering 60 languages and 234 translation directions. During development, we identify a previously overlooked phenomenon of directional degeneration, where symmetric multi-way fine-tuning data overemphasize reverse directions (X to En/Zh), leading to excessive many-to-one mappings and degraded translation quality. We propose Strategic Downsampling, a simple yet effective method to mitigate this degeneration. In addition, we design Parallel Multilingual Prompting (PMP), which leverages typologically related auxiliary languages to enhance cross-lingual transfer. Through rigorous data curation and refined adaptation strategies, LMT achieves SOTA performance among models of comparable language coverage, with our 4B model (LMT-60-4B) surpassing the much larger Aya-101-13B and NLLB-54B models by a substantial margin. We release LMT in four sizes (0.6B/1.7B/4B/8B) to catalyze future research and provide strong baselines for inclusive, scalable, and high-quality MMT \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
PDF322December 2, 2025