ChatPaper.aiChatPaper

FuxiMT : Sparsification des grands modèles de langage pour la traduction automatique multilingue centrée sur le chinois

FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation

May 20, 2025
Auteurs: Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong
cs.AI

Résumé

Dans cet article, nous présentons FuxiMT, un nouveau modèle de traduction automatique multilingue centré sur le chinois, alimenté par un grand modèle de langage (LLM) épars. Nous adoptons une stratégie en deux étapes pour entraîner FuxiMT. Nous pré-entraînons d'abord le modèle sur un vaste corpus chinois, puis procédons à un ajustement multilingue sur un grand ensemble de données parallèles couvrant 65 langues. FuxiMT intègre une architecture de type Mixture-of-Experts (MoEs) et utilise une stratégie d'apprentissage curriculaire pour assurer des performances robustes à différents niveaux de ressources. Les résultats expérimentaux montrent que FuxiMT surpasse significativement les modèles de référence, y compris les LLM et les modèles de traduction automatique de pointe, en particulier dans des scénarios à faibles ressources. De plus, FuxiMT démontre des capacités remarquables de traduction zero-shot pour des paires de langues non vues, indiquant son potentiel à combler les lacunes de communication là où les données parallèles sont rares ou indisponibles.
English
In this paper, we present FuxiMT, a novel Chinese-centric multilingual machine translation model powered by a sparsified large language model (LLM). We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on a massive Chinese corpus and then conduct multilingual fine-tuning on a large parallel dataset encompassing 65 languages. FuxiMT incorporates Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust performance across various resource levels. Experimental results demonstrate that FuxiMT significantly outperforms strong baselines, including state-of-the-art LLMs and machine translation models, particularly under low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot translation capabilities for unseen language pairs, indicating its potential to bridge communication gaps where parallel data are scarce or unavailable.

Summary

AI-Generated Summary

PDF12May 26, 2025