La mise en alignement des préférences est-elle toujours la meilleure option pour améliorer la traduction basée sur les LLM ? Une analyse empirique
Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis
September 30, 2024
Auteurs: Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro
cs.AI
Résumé
Les mesures neuronales pour l'évaluation de la traduction automatique (TA) sont devenues de plus en plus importantes en raison de leur corrélation supérieure avec les jugements humains par rapport aux mesures lexicales traditionnelles. Les chercheurs ont donc utilisé des mesures neuronales à travers des stratégies de décodage basées sur la qualité, obtenant de meilleurs résultats que les méthodes basées sur la vraisemblance. Avec l'avènement des Grands Modèles de Langue (GML), les techniques d'alignement basées sur les préférences ont attiré l'attention pour leur potentiel à améliorer la qualité de la traduction en optimisant directement les poids du modèle sur les préférences induites par les estimateurs de qualité. Cette étude se concentre sur l'Optimisation de Préférence Contrastive (OPC) et mène des expériences approfondies pour évaluer l'impact de l'alignement basé sur les préférences sur la qualité de la traduction. Nos résultats indiquent que bien que l'OPC surpasse systématiquement le Fine-Tuning Supervisé (FTS) sur des données de haute qualité en ce qui concerne la métrique d'alignement, cela peut entraîner une instabilité entre les métriques d'évaluation en aval, en particulier entre les métriques neuronales et lexicales. De plus, nous démontrons que le fait de se fier uniquement sur le modèle de base pour générer des traductions candidates atteint des performances comparables à l'utilisation de plusieurs systèmes externes, tout en garantissant une meilleure cohérence à travers les métriques en aval.
English
Neural metrics for machine translation (MT) evaluation have become
increasingly prominent due to their superior correlation with human judgments
compared to traditional lexical metrics. Researchers have therefore utilized
neural metrics through quality-informed decoding strategies, achieving better
results than likelihood-based methods. With the rise of Large Language Models
(LLMs), preference-based alignment techniques have gained attention for their
potential to enhance translation quality by optimizing model weights directly
on preferences induced by quality estimators. This study focuses on Contrastive
Preference Optimization (CPO) and conducts extensive experiments to evaluate
the impact of preference-based alignment on translation quality. Our findings
indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT)
on high-quality data with regard to the alignment metric, it may lead to
instability across downstream evaluation metrics, particularly between neural
and lexical ones. Additionally, we demonstrate that relying solely on the base
model for generating candidate translations achieves performance comparable to
using multiple external systems, while ensuring better consistency across
downstream metrics.Summary
AI-Generated Summary