Un Changement de Paradigme dans la Traduction Automatique : Amélioration des Performances de Traduction des Grands Modèles de Langage
A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models
September 20, 2023
Auteurs: Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla
cs.AI
Résumé
Les modèles de langage génératifs de grande taille (LLMs) ont réalisé des avancées remarquables dans diverses tâches de traitement du langage naturel (NLP). Cependant, ces progrès ne se sont pas reflétés dans la tâche de traduction, en particulier pour les modèles de taille modérée (c'est-à-dire 7B ou 13B paramètres), qui restent en retard par rapport aux modèles de traduction supervisés classiques de type encodeur-décodeur. Des études précédentes ont tenté d'améliorer les capacités de traduction de ces LLMs modérés, mais leurs gains ont été limités. Dans cette étude, nous proposons une nouvelle approche de fine-tuning spécifiquement conçue pour la tâche de traduction, éliminant le besoin de données parallèles abondantes dont dépendent traditionnellement les modèles de traduction. Notre approche comprend deux étapes de fine-tuning : un fine-tuning initial sur des données monolingues suivi d'un fine-tuning ultérieur sur un petit ensemble de données parallèles de haute qualité. Nous présentons le LLM développé grâce à cette stratégie sous le nom de Advanced Language Model-based trAnslator (ALMA). Basé sur LLaMA-2 comme modèle sous-jacent, nos résultats montrent que le modèle peut atteindre une amélioration moyenne de plus de 12 points BLEU et 12 points COMET par rapport à ses performances en zero-shot sur 10 directions de traduction issues des jeux de test WMT'21 (2 directions) et WMT'22 (8 directions). La performance est nettement supérieure à tous les travaux antérieurs et même meilleure que le modèle NLLB-54B et GPT-3.5-text-davinci-003, avec seulement 7B ou 13B paramètres. Cette méthode établit les bases d'un nouveau paradigme d'entraînement en traduction automatique.
English
Generative Large Language Models (LLMs) have achieved remarkable advancements
in various NLP tasks. However, these advances have not been reflected in the
translation task, especially those with moderate model sizes (i.e., 7B or 13B
parameters), which still lag behind conventional supervised encoder-decoder
translation models. Previous studies have attempted to improve the translation
capabilities of these moderate LLMs, but their gains have been limited. In this
study, we propose a novel fine-tuning approach for LLMs that is specifically
designed for the translation task, eliminating the need for the abundant
parallel data that traditional translation models usually depend on. Our
approach consists of two fine-tuning stages: initial fine-tuning on monolingual
data followed by subsequent fine-tuning on a small set of high-quality parallel
data. We introduce the LLM developed through this strategy as Advanced Language
Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our
results show that the model can achieve an average improvement of more than 12
BLEU and 12 COMET over its zero-shot performance across 10 translation
directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test
datasets. The performance is significantly better than all prior work and even
superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or
13B parameters. This method establishes the foundation for a novel training
paradigm in machine translation.