FuxiMT: Упрощение крупных языковых моделей для китайско-ориентированного многоязычного машинного перевода
FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation
May 20, 2025
Авторы: Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong
cs.AI
Аннотация
В данной статье мы представляем FuxiMT — новую китаецентричную модель машинного перевода, основанную на разреженной большой языковой модели (LLM). Мы применяем двухэтапную стратегию обучения FuxiMT. Сначала модель предварительно обучается на обширном китайском корпусе, а затем проводится многоязычная тонкая настройка на большом параллельном наборе данных, охватывающем 65 языков. FuxiMT включает в себя подход Mixture-of-Experts (MoEs) и использует стратегию обучения по учебному плану для обеспечения устойчивой производительности при различных уровнях ресурсов. Экспериментальные результаты показывают, что FuxiMT значительно превосходит сильные базовые модели, включая современные LLM и модели машинного перевода, особенно в условиях ограниченных ресурсов. Кроме того, FuxiMT демонстрирует впечатляющие возможности нулевого перевода для неизвестных языковых пар, что указывает на её потенциал для преодоления коммуникационных барьеров в ситуациях, когда параллельные данные отсутствуют или их недостаточно.
English
In this paper, we present FuxiMT, a novel Chinese-centric multilingual
machine translation model powered by a sparsified large language model (LLM).
We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on
a massive Chinese corpus and then conduct multilingual fine-tuning on a large
parallel dataset encompassing 65 languages. FuxiMT incorporates
Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust
performance across various resource levels. Experimental results demonstrate
that FuxiMT significantly outperforms strong baselines, including
state-of-the-art LLMs and machine translation models, particularly under
low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot
translation capabilities for unseen language pairs, indicating its potential to
bridge communication gaps where parallel data are scarce or unavailable.Summary
AI-Generated Summary