Au-delà des modèles décodeurs uniquement : les grands modèles de langage peuvent être de bons encodeurs pour la traduction automatique
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation
March 9, 2025
Auteurs: Yingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu
cs.AI
Résumé
Le domaine de la traduction automatique neuronale (NMT) a évolué avec l'avènement des grands modèles de langage (LLMs). Une grande partie de l'attention récente en traitement automatique du langage naturel (NLP) s'est portée sur la modélisation de la traduction automatique et de nombreux autres problèmes à l'aide d'un seul décodeur Transformer pré-entraîné, tandis que les architectures encodeur-décodeur, qui étaient la norme dans les modèles NMT antérieurs, ont reçu relativement moins d'attention. Dans cet article, nous explorons des modèles de traduction universels, efficaces et faciles à optimiser, en combinant le monde des LLMs avec celui de la NMT. Nous appliquons les LLMs à l'encodage NMT et laissons le décodeur NMT inchangé. Nous développons également des méthodes pour adapter les LLMs afin qu'ils fonctionnent mieux avec le décodeur NMT. De plus, nous construisons un nouveau jeu de données impliquant plusieurs tâches pour évaluer dans quelle mesure le système de traduction automatique généralise à travers diverses tâches. Les évaluations sur les jeux de données WMT et les nôtres montrent que les résultats obtenus avec notre méthode égalent ou surpassent une gamme de références en termes de qualité de traduction, tout en atteignant des accélérations d'inférence de 2,4 à 6,5 fois et une réduction de 75 % de l'empreinte mémoire du cache KV. Cela démontre également une forte généralisation à travers une variété de tâches liées à la traduction.
English
The field of neural machine translation (NMT) has changed with the advent of
large language models (LLMs). Much of the recent emphasis in natural language
processing (NLP) has been on modeling machine translation and many other
problems using a single pre-trained Transformer decoder, while encoder-decoder
architectures, which were the standard in earlier NMT models, have received
relatively less attention. In this paper, we explore translation models that
are universal, efficient, and easy to optimize, by marrying the world of LLMs
with the world of NMT. We apply LLMs to NMT encoding and leave the NMT decoder
unchanged. We also develop methods for adapting LLMs to work better with the
NMT decoder. Furthermore, we construct a new dataset involving multiple tasks
to assess how well the machine translation system generalizes across various
tasks. Evaluations on the WMT and our datasets show that results using our
method match or surpass a range of baselines in terms of translation quality,
but achieve 2.4 sim 6.5 times inference speedups and a 75% reduction in
the memory footprint of the KV cache. It also demonstrates strong
generalization across a variety of translation-related tasks.Summary
AI-Generated Summary