ChatPaper.aiChatPaper

За пределами английского: к инклюзивному и масштабируемому многоязычному машинному переводу с помощью больших языковых моделей

Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs

November 10, 2025
Авторы: Yingfeng Luo, Ziqiang Xu, Yuxuan Ouyang, Murun Yang, Dingyang Lin, Kaiyan Chang, Tong Zheng, Bei Li, Peinan Feng, Quan Du, Tong Xiao, Jingbo Zhu
cs.AI

Аннотация

Крупные языковые модели значительно продвинули многоязычный машинный перевод (ММП), однако широкий языковой охват, стабильное качество перевода и англоцентричная предвзятость остаются нерешенными проблемами. Для решения этих задач мы представляем LMT — набор крупномасштабных многоязычных моделей перевода, ориентированных на китайский и английский языки, охватывающих 60 языков и 234 направления перевода. В процессе разработки мы выявили ранее упускаемое явление деградации направленности, при котором симметричные многосторонние данные тонкой настройки чрезмерно акцентируют обратные направления (X → En/Zh), что приводит к избыточным много-к-одному соответствиям и снижению качества перевода. Мы предлагаем стратегическое понижающее дискретизирование — простой, но эффективный метод для смягчения этой деградации. Кроме того, мы разработали параллельное многоязычное prompting (PMP), которое использует типологически родственные вспомогательные языки для улучшения межъязыкового переноса. Благодаря тщательной подготовке данных и усовершенствованным стратегиям адаптации, LMT демонстрирует состояние искусства среди моделей со сравнимым языковым охватом, причем наша 4-миллиардная модель (LMT-60-4B) существенно превосходит гораздо более крупные модели Aya-101-13B и NLLB-54B. Мы публикуем LMT в четырех размерах (0.6B/1.7B/4B/8B) для стимулирования будущих исследований и предоставления надежных базовых уровней для инклюзивного, масштабируемого и высококачественного ММП \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
English
Large language models have significantly advanced Multilingual Machine Translation (MMT), yet the broad language coverage, consistent translation quality, and English-centric bias remain open challenges. To address these challenges, we introduce LMT, a suite of Large-scale Multilingual Translation models centered on both Chinese and English, covering 60 languages and 234 translation directions. During development, we identify a previously overlooked phenomenon of directional degeneration, where symmetric multi-way fine-tuning data overemphasize reverse directions (X to En/Zh), leading to excessive many-to-one mappings and degraded translation quality. We propose Strategic Downsampling, a simple yet effective method to mitigate this degeneration. In addition, we design Parallel Multilingual Prompting (PMP), which leverages typologically related auxiliary languages to enhance cross-lingual transfer. Through rigorous data curation and refined adaptation strategies, LMT achieves SOTA performance among models of comparable language coverage, with our 4B model (LMT-60-4B) surpassing the much larger Aya-101-13B and NLLB-54B models by a substantial margin. We release LMT in four sizes (0.6B/1.7B/4B/8B) to catalyze future research and provide strong baselines for inclusive, scalable, and high-quality MMT \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
PDF322December 2, 2025