ChatPaper.aiChatPaper

영어를 넘어서: LLM 기반 포용적이고 확장 가능한 다국어 기계 번역을 향하여

Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

November 10, 2025
저자: Yingfeng Luo, Ziqiang Xu, Yuxuan Ouyang, Murun Yang, Dingyang Lin, Kaiyan Chang, Tong Zheng, Bei Li, Peinan Feng, Quan Du, Tong Xiao, Jingbo Zhu
cs.AI

초록

대규모 언어 모델은 다국어 기계 번역(MMT)을 크게 발전시켰으나, 광범위한 언어 커버리지, 일관된 번역 품질, 영어 중심 편향 문제는 여전히 해결해야 할 과제로 남아 있습니다. 이러한 문제를 해결하기 위해 본 연구에서는 중국어와 영어를 모두 중심으로 60개 언어와 234개 번역 방향을 포괄하는 대규모 다국어 번역 모델군 LMT를 소개합니다. 개발 과정에서 우리는 대칭적 다방향 미세 조정 데이터가 역방향(다국어 X → 영어/중국어) 번역을 과도하게 강조하여 지나친 다대일 매핑과 번역 품질 저하를 초래하는 '방향성 퇴화' 현상을 발견했습니다. 이를 완화하기 위해 간단하면서도 효과적인 방법인 전략적 다운샘플링을 제안합니다. 또한 계통 발생적으로 유사한 보조 언어를 활용하여 언어 간 전이를 강화하는 병렬 다국어 프롬프팅(PMP) 기법을 설계했습니다. 엄격한 데이터 정제 및 정교한 적응 전략을 통해 LMT는 유사한 언어 커버리지를 가진 모델 중 최고 수준의 성능을 달성했으며, 40억 파라미터 모델(LMT-60-4B)은 훨씬 큰 규모의 Aya-101-13B 및 NLLB-54B 모델을 상당한 차이로 앞섰습니다. 우리는 향후 연구를 촉진하고 포용적이며 확장 가능한 고품질 MMT를 위한 강력한 기준선을 제공하기 위해 LMT를 4가지 규모(6억/17억/40억/80억 파라미터)로 공개합니다 \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
English
Large language models have significantly advanced Multilingual Machine Translation (MMT), yet the broad language coverage, consistent translation quality, and English-centric bias remain open challenges. To address these challenges, we introduce LMT, a suite of Large-scale Multilingual Translation models centered on both Chinese and English, covering 60 languages and 234 translation directions. During development, we identify a previously overlooked phenomenon of directional degeneration, where symmetric multi-way fine-tuning data overemphasize reverse directions (X to En/Zh), leading to excessive many-to-one mappings and degraded translation quality. We propose Strategic Downsampling, a simple yet effective method to mitigate this degeneration. In addition, we design Parallel Multilingual Prompting (PMP), which leverages typologically related auxiliary languages to enhance cross-lingual transfer. Through rigorous data curation and refined adaptation strategies, LMT achieves SOTA performance among models of comparable language coverage, with our 4B model (LMT-60-4B) surpassing the much larger Aya-101-13B and NLLB-54B models by a substantial margin. We release LMT in four sizes (0.6B/1.7B/4B/8B) to catalyze future research and provide strong baselines for inclusive, scalable, and high-quality MMT \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
PDF322December 2, 2025