FuxiMT: Het verspreiden van grote taalmodellen voor Chinees-centrische meertalige machinaal vertalen
FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation
May 20, 2025
Auteurs: Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong
cs.AI
Samenvatting
In dit artikel presenteren we FuxiMT, een nieuw Chinees-gecentreerd meertalig machinevertalingsmodel dat wordt aangedreven door een gesparseerd groot taalmodel (LLM). We hanteren een tweefasenstrategie om FuxiMT te trainen. Eerst pre-trainen we het model op een omvangrijk Chinees corpus en voeren vervolgens meertalige fine-tuning uit op een grote parallelle dataset die 65 talen omvat. FuxiMT integreert Mixture-of-Experts (MoEs) en maakt gebruik van een curriculumleerstrategie voor robuuste prestaties op verschillende niveaus van beschikbare bronnen. Experimentele resultaten tonen aan dat FuxiMT aanzienlijk beter presteert dan sterke baselines, waaronder state-of-the-art LLMs en machinevertalingsmodellen, met name in scenario's met beperkte bronnen. Bovendien vertoont FuxiMT opmerkelijke zero-shot vertaalcapaciteiten voor onbekende taalparen, wat wijst op het potentieel om communicatiekloof te overbruggen waar parallelle data schaars of niet beschikbaar zijn.
English
In this paper, we present FuxiMT, a novel Chinese-centric multilingual
machine translation model powered by a sparsified large language model (LLM).
We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on
a massive Chinese corpus and then conduct multilingual fine-tuning on a large
parallel dataset encompassing 65 languages. FuxiMT incorporates
Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust
performance across various resource levels. Experimental results demonstrate
that FuxiMT significantly outperforms strong baselines, including
state-of-the-art LLMs and machine translation models, particularly under
low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot
translation capabilities for unseen language pairs, indicating its potential to
bridge communication gaps where parallel data are scarce or unavailable.