FuxiMT: Упрощение крупных языковых моделей для китайско-ориентированного многоязычного машинного перевода

Аннотация

В данной статье мы представляем FuxiMT — новую китаецентричную модель машинного перевода, основанную на разреженной большой языковой модели (LLM). Мы применяем двухэтапную стратегию обучения FuxiMT. Сначала модель предварительно обучается на обширном китайском корпусе, а затем проводится многоязычная тонкая настройка на большом параллельном наборе данных, охватывающем 65 языков. FuxiMT включает в себя подход Mixture-of-Experts (MoEs) и использует стратегию обучения по учебному плану для обеспечения устойчивой производительности при различных уровнях ресурсов. Экспериментальные результаты показывают, что FuxiMT значительно превосходит сильные базовые модели, включая современные LLM и модели машинного перевода, особенно в условиях ограниченных ресурсов. Кроме того, FuxiMT демонстрирует впечатляющие возможности нулевого перевода для неизвестных языковых пар, что указывает на её потенциал для преодоления коммуникационных барьеров в ситуациях, когда параллельные данные отсутствуют или их недостаточно.

English

In this paper, we present FuxiMT, a novel Chinese-centric multilingual machine translation model powered by a sparsified large language model (LLM). We adopt a two-stage strategy to train FuxiMT. We first pre-train the model on a massive Chinese corpus and then conduct multilingual fine-tuning on a large parallel dataset encompassing 65 languages. FuxiMT incorporates Mixture-of-Experts (MoEs) and employs a curriculum learning strategy for robust performance across various resource levels. Experimental results demonstrate that FuxiMT significantly outperforms strong baselines, including state-of-the-art LLMs and machine translation models, particularly under low-resource scenarios. Furthermore, FuxiMT exhibits remarkable zero-shot translation capabilities for unseen language pairs, indicating its potential to bridge communication gaps where parallel data are scarce or unavailable.

FuxiMT: Упрощение крупных языковых моделей для китайско-ориентированного многоязычного машинного перевода

FuxiMT: Sparsifying Large Language Models for Chinese-Centric Multilingual Machine Translation

Аннотация

Support