ChatPaper.aiChatPaper

FuxiMT: Sottodimensionamento dei Modelli Linguistici di Grandi Dimensioni per la Traduzione Automatica Multilingue Centrata sul Cinese

FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation

May 20, 2025
Autori: Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong
cs.AI

Abstract

In questo articolo presentiamo FuxiMT, un innovativo modello di traduzione automatica multilingue centrato sul cinese, basato su un modello linguistico di grandi dimensioni (LLM) sparsificato. Adottiamo una strategia in due fasi per addestrare FuxiMT. Inizialmente pre-addestriamo il modello su un ampio corpus cinese e successivamente effettuiamo un fine-tuning multilingue su un vasto dataset parallelo che comprende 65 lingue. FuxiMT incorpora un approccio Mixture-of-Experts (MoEs) e utilizza una strategia di apprendimento curriculare per garantire prestazioni robuste a diversi livelli di risorse. I risultati sperimentali dimostrano che FuxiMT supera significativamente i baseline di riferimento, inclusi i modelli LLM e di traduzione automatica all'avanguardia, in particolare in scenari con risorse limitate. Inoltre, FuxiMT mostra notevoli capacità di traduzione zero-shot per coppie di lingue non viste, indicando il suo potenziale nel colmare i gap comunicativi laddove i dati paralleli siano scarsi o non disponibili.
English
In this paper, we present FuxiMT, a novel Chinese-centric multilingual machine translation model powered by a sparsified large language model (LLM). We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on a massive Chinese corpus and then conduct multilingual fine-tuning on a large parallel dataset encompassing 65 languages. FuxiMT incorporates Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust performance across various resource levels. Experimental results demonstrate that FuxiMT significantly outperforms strong baselines, including state-of-the-art LLMs and machine translation models, particularly under low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot translation capabilities for unseen language pairs, indicating its potential to bridge communication gaps where parallel data are scarce or unavailable.
PDF12May 26, 2025