ChatPaper.aiChatPaper

FuxiMT: Esparcimiento de Modelos de Lenguaje a Gran Escala para Traducción Automática Multilingüe Centrada en el Chino

FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation

May 20, 2025
Autores: Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong
cs.AI

Resumen

En este artículo presentamos FuxiMT, un modelo novedoso de traducción automática multilingüe centrado en el chino, impulsado por un modelo de lenguaje grande (LLM) esparsificado. Adoptamos una estrategia de dos etapas para entrenar FuxiMT. Primero preentrenamos el modelo en un corpus masivo de chino y luego realizamos un ajuste fino multilingüe en un gran conjunto de datos paralelos que abarca 65 idiomas. FuxiMT incorpora una arquitectura de Mixture-of-Experts (MoEs) y emplea una estrategia de aprendizaje curricular para un rendimiento robusto en diversos niveles de recursos. Los resultados experimentales demuestran que FuxiMT supera significativamente a los modelos de referencia, incluyendo LLMs y modelos de traducción automática de última generación, especialmente en escenarios de bajos recursos. Además, FuxiMT exhibe capacidades notables de traducción zero-shot para pares de idiomas no vistos, lo que indica su potencial para cerrar brechas de comunicación donde los datos paralelos son escasos o inexistentes.
English
In this paper, we present FuxiMT, a novel Chinese-centric multilingual machine translation model powered by a sparsified large language model (LLM). We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on a massive Chinese corpus and then conduct multilingual fine-tuning on a large parallel dataset encompassing 65 languages. FuxiMT incorporates Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust performance across various resource levels. Experimental results demonstrate that FuxiMT significantly outperforms strong baselines, including state-of-the-art LLMs and machine translation models, particularly under low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot translation capabilities for unseen language pairs, indicating its potential to bridge communication gaps where parallel data are scarce or unavailable.

Summary

AI-Generated Summary

PDF12May 26, 2025