FuxiMT: Esparcimiento de Modelos de Lenguaje a Gran Escala para Traducción Automática Multilingüe Centrada en el Chino
FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation
May 20, 2025
Autores: Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong
cs.AI
Resumen
En este artículo presentamos FuxiMT, un modelo novedoso de traducción automática multilingüe centrado en el chino, impulsado por un modelo de lenguaje grande (LLM) esparsificado. Adoptamos una estrategia de dos etapas para entrenar FuxiMT. Primero preentrenamos el modelo en un corpus masivo de chino y luego realizamos un ajuste fino multilingüe en un gran conjunto de datos paralelos que abarca 65 idiomas. FuxiMT incorpora una arquitectura de Mixture-of-Experts (MoEs) y emplea una estrategia de aprendizaje curricular para un rendimiento robusto en diversos niveles de recursos. Los resultados experimentales demuestran que FuxiMT supera significativamente a los modelos de referencia, incluyendo LLMs y modelos de traducción automática de última generación, especialmente en escenarios de bajos recursos. Además, FuxiMT exhibe capacidades notables de traducción zero-shot para pares de idiomas no vistos, lo que indica su potencial para cerrar brechas de comunicación donde los datos paralelos son escasos o inexistentes.
English
In this paper, we present FuxiMT, a novel Chinese-centric multilingual
machine translation model powered by a sparsified large language model (LLM).
We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on
a massive Chinese corpus and then conduct multilingual fine-tuning on a large
parallel dataset encompassing 65 languages. FuxiMT incorporates
Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust
performance across various resource levels. Experimental results demonstrate
that FuxiMT significantly outperforms strong baselines, including
state-of-the-art LLMs and machine translation models, particularly under
low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot
translation capabilities for unseen language pairs, indicating its potential to
bridge communication gaps where parallel data are scarce or unavailable.Summary
AI-Generated Summary