ChatPaper.aiChatPaper

FuxiMT: Sparsifizierung großer Sprachmodelle für chinesisch-zentrierte mehrsprachige maschinelle Übersetzung

FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation

May 20, 2025
Autoren: Shaolin Zhu, Tianyu Dong, Bo Li, Deyi Xiong
cs.AI

Zusammenfassung

In diesem Artikel stellen wir FuxiMT vor, ein neuartiges, chinesisch-zentriertes multilinguales maschinelles Übersetzungsmodell, das von einem sparsifizierten Large Language Model (LLM) angetrieben wird. Wir verfolgen eine zweistufige Strategie, um FuxiMT zu trainieren. Zunächst wird das Modell auf einem umfangreichen chinesischen Korpus vortrainiert und anschließend durch multilinguales Feinabstimmen auf einem großen parallelen Datensatz, der 65 Sprachen umfasst, optimiert. FuxiMT integriert Mixture-of-Experts (MoEs) und setzt eine Curriculum-Learning-Strategie ein, um eine robuste Leistung über verschiedene Ressourcenniveaus hinweg zu gewährleisten. Experimentelle Ergebnisse zeigen, dass FuxiMT starke Baselines, einschließlich state-of-the-art LLMs und maschineller Übersetzungsmodelle, deutlich übertrifft, insbesondere in ressourcenarmen Szenarien. Darüber hinaus zeigt FuxiMT bemerkenswerte Zero-Shot-Übersetzungsfähigkeiten für unbekannte Sprachpaare, was sein Potenzial zur Überbrückung von Kommunikationslücken in Fällen, in denen parallele Daten knapp oder nicht verfügbar sind, verdeutlicht.
English
In this paper, we present FuxiMT, a novel Chinese-centric multilingual machine translation model powered by a sparsified large language model (LLM). We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on a massive Chinese corpus and then conduct multilingual fine-tuning on a large parallel dataset encompassing 65 languages. FuxiMT incorporates Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust performance across various resource levels. Experimental results demonstrate that FuxiMT significantly outperforms strong baselines, including state-of-the-art LLMs and machine translation models, particularly under low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot translation capabilities for unseen language pairs, indicating its potential to bridge communication gaps where parallel data are scarce or unavailable.

Summary

AI-Generated Summary

PDF12May 26, 2025