ChatPaper.aiChatPaper

FuxiMT: Esparsificação de Modelos de Linguagem de Grande Porte para Tradução Automática Multilíngue Centrada no Chinês

FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation

May 20, 2025
Autores: Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong
cs.AI

Resumo

Neste artigo, apresentamos o FuxiMT, um modelo inovador de tradução automática multilíngue centrado no chinês, impulsionado por um modelo de linguagem grande (LLM) esparsificado. Adotamos uma estratégia de duas etapas para treinar o FuxiMT. Primeiro, pré-treinamos o modelo em um extenso corpus chinês e, em seguida, realizamos um ajuste fino multilíngue em um grande conjunto de dados paralelos que abrange 65 idiomas. O FuxiMT incorpora a abordagem Mixture-of-Experts (MoEs) e emprega uma estratégia de aprendizado curricular para garantir um desempenho robusto em diversos níveis de recursos. Os resultados experimentais demonstram que o FuxiMT supera significativamente as linhas de base fortes, incluindo LLMs e modelos de tradução automática de última geração, especialmente em cenários de baixos recursos. Além disso, o FuxiMT exibe capacidades notáveis de tradução zero-shot para pares de idiomas não vistos, indicando seu potencial para preencher lacunas de comunicação onde dados paralelos são escassos ou indisponíveis.
English
In this paper, we present FuxiMT, a novel Chinese-centric multilingual machine translation model powered by a sparsified large language model (LLM). We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on a massive Chinese corpus and then conduct multilingual fine-tuning on a large parallel dataset encompassing 65 languages. FuxiMT incorporates Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust performance across various resource levels. Experimental results demonstrate that FuxiMT significantly outperforms strong baselines, including state-of-the-art LLMs and machine translation models, particularly under low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot translation capabilities for unseen language pairs, indicating its potential to bridge communication gaps where parallel data are scarce or unavailable.
PDF12May 26, 2025