Para Além do Inglês: Rumo a uma Tradução Automática Multilíngue Inclusiva e Escalável com LLMs

Resumo

Os modelos de linguagem de grande escala avançaram significativamente a Tradução Automática Multilíngue (TAM), mas a ampla cobertura linguística, a qualidade de tradução consistente e o viés centrado no inglês permanecem como desafios em aberto. Para enfrentar esses desafios, apresentamos o LMT, um conjunto de modelos de Tradução Multilíngue de Grande Escala centrado no chinês e no inglês, abrangendo 60 idiomas e 234 direções de tradução. Durante o desenvolvimento, identificamos um fenômeno previamente negligenciado de degeneração direcional, no qual dados de ajuste fino multivia simétricos superenfatizam as direções reversas (X para En/Zh), levando a excessivos mapeamentos muitos-para-um e à degradação da qualidade da tradução. Propomos a Amostragem Estratégica (Strategic Downsampling), um método simples mas eficaz para mitigar essa degeneração. Além disso, projetamos o Prompting Multilíngue Paralelo (PMP), que aproveita línguas auxiliares tipologicamente relacionadas para melhorar a transferência cross-lingual. Por meio de uma curadoria rigorosa de dados e estratégias de adaptação refinadas, o LMT alcança desempenho de estado da arte entre modelos de cobertura linguística comparável, com nosso modelo de 4B (LMT-60-4B) superando os modelos muito maiores Aya-101-13B e NLLB-54B por uma margem substancial. Lançamos o LMT em quatro tamanhos (0.6B/1.7B/4B/8B) para catalisar pesquisas futuras e fornecer bases sólidas para uma TAM inclusiva, escalável e de alta qualidade \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.

English

Large language models have significantly advanced Multilingual Machine Translation (MMT), yet the broad language coverage, consistent translation quality, and English-centric bias remain open challenges. To address these challenges, we introduce LMT, a suite of Large-scale Multilingual Translation models centered on both Chinese and English, covering 60 languages and 234 translation directions. During development, we identify a previously overlooked phenomenon of directional degeneration, where symmetric multi-way fine-tuning data overemphasize reverse directions (X to En/Zh), leading to excessive many-to-one mappings and degraded translation quality. We propose Strategic Downsampling, a simple yet effective method to mitigate this degeneration. In addition, we design Parallel Multilingual Prompting (PMP), which leverages typologically related auxiliary languages to enhance cross-lingual transfer. Through rigorous data curation and refined adaptation strategies, LMT achieves SOTA performance among models of comparable language coverage, with our 4B model (LMT-60-4B) surpassing the much larger Aya-101-13B and NLLB-54B models by a substantial margin. We release LMT in four sizes (0.6B/1.7B/4B/8B) to catalyze future research and provide strong baselines for inclusive, scalable, and high-quality MMT \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.

Para Além do Inglês: Rumo a uma Tradução Automática Multilíngue Inclusiva e Escalável com LLMs

Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

Resumo

Support