ChatPaper.aiChatPaper

Optimisation Contrastive des Préférences : Repousser les Limites des Performances des LLM en Traduction Automatique

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

January 16, 2024
Auteurs: Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim
cs.AI

Résumé

Les modèles de langage de taille modérée (LLMs) -- ceux comptant 7 ou 13 milliards de paramètres -- démontrent des performances prometteuses en traduction automatique (MT). Cependant, même les meilleurs modèles de traduction basés sur des LLMs de 13B, comme ALMA, ne rivalisent pas avec les performances des modèles de traduction conventionnels encodeur-décodeur de pointe ou des LLMs à plus grande échelle tels que GPT-4. Dans cette étude, nous comblons cet écart de performance. Nous évaluons d'abord les lacunes du fine-tuning supervisé pour les LLMs dans la tâche de traduction automatique, en soulignant les problèmes de qualité présents dans les données de référence, bien que celles-ci soient générées par des humains. Ensuite, contrairement au fine-tuning supervisé (SFT) qui imite les traductions de référence, nous introduisons l'Optimisation Préférentielle Contrastive (CPO), une approche novatrice qui entraîne les modèles à éviter de générer des traductions adéquates mais non parfaites. L'application de CPO aux modèles ALMA avec seulement 22 000 phrases parallèles et 12 millions de paramètres entraîne des améliorations significatives. Le modèle résultant, appelé ALMA-R, peut égaler ou surpasser les performances des vainqueurs de la compétition WMT et de GPT-4 sur les ensembles de test WMT'21, WMT'22 et WMT'23.
English
Moderate-sized large language models (LLMs) -- those with 7B or 13B parameters -- exhibit promising machine translation (MT) performance. However, even the top-performing 13B LLM-based translation models, like ALMA, does not match the performance of state-of-the-art conventional encoder-decoder translation models or larger-scale LLMs such as GPT-4. In this study, we bridge this performance gap. We first assess the shortcomings of supervised fine-tuning for LLMs in the MT task, emphasizing the quality issues present in the reference data, despite being human-generated. Then, in contrast to SFT which mimics reference translations, we introduce Contrastive Preference Optimization (CPO), a novel approach that trains models to avoid generating adequate but not perfect translations. Applying CPO to ALMA models with only 22K parallel sentences and 12M parameters yields significant improvements. The resulting model, called ALMA-R, can match or exceed the performance of the WMT competition winners and GPT-4 on WMT'21, WMT'22 and WMT'23 test datasets.
PDF373December 15, 2024