FuxiMT: Esparsificação de Modelos de Linguagem de Grande Porte para Tradução Automática Multilíngue Centrada no Chinês
FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation
May 20, 2025
Autores: Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong
cs.AI
Resumo
Neste artigo, apresentamos o FuxiMT, um modelo inovador de tradução automática multilíngue centrado no chinês, impulsionado por um modelo de linguagem grande (LLM) esparsificado. Adotamos uma estratégia de duas etapas para treinar o FuxiMT. Primeiro, pré-treinamos o modelo em um extenso corpus chinês e, em seguida, realizamos um ajuste fino multilíngue em um grande conjunto de dados paralelos que abrange 65 idiomas. O FuxiMT incorpora a abordagem Mixture-of-Experts (MoEs) e emprega uma estratégia de aprendizado curricular para garantir um desempenho robusto em diversos níveis de recursos. Os resultados experimentais demonstram que o FuxiMT supera significativamente as linhas de base fortes, incluindo LLMs e modelos de tradução automática de última geração, especialmente em cenários de baixos recursos. Além disso, o FuxiMT exibe capacidades notáveis de tradução zero-shot para pares de idiomas não vistos, indicando seu potencial para preencher lacunas de comunicação onde dados paralelos são escassos ou indisponíveis.
English
In this paper, we present FuxiMT, a novel Chinese-centric multilingual
machine translation model powered by a sparsified large language model (LLM).
We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on
a massive Chinese corpus and then conduct multilingual fine-tuning on a large
parallel dataset encompassing 65 languages. FuxiMT incorporates
Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust
performance across various resource levels. Experimental results demonstrate
that FuxiMT significantly outperforms strong baselines, including
state-of-the-art LLMs and machine translation models, particularly under
low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot
translation capabilities for unseen language pairs, indicating its potential to
bridge communication gaps where parallel data are scarce or unavailable.