¿Es la Alineación de Preferencias Siempre la Mejor Opción para Mejorar la Traducción Basada en LLM? Un Análisis Empírico
Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis
September 30, 2024
Autores: Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro
cs.AI
Resumen
Las métricas neuronales para la evaluación de la traducción automática (TA) han cobrado cada vez más relevancia debido a su correlación superior con las valoraciones humanas en comparación con las métricas léxicas tradicionales. Por lo tanto, los investigadores han utilizado métricas neuronales a través de estrategias de decodificación informadas por la calidad, logrando mejores resultados que los métodos basados en verosimilitud. Con el auge de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés), las técnicas de alineación basadas en preferencias han captado la atención por su potencial para mejorar la calidad de la traducción al optimizar los pesos del modelo directamente sobre las preferencias inducidas por los estimadores de calidad. Este estudio se centra en la Optimización de Preferencia Contrastiva (CPO) y realiza experimentos exhaustivos para evaluar el impacto de la alineación basada en preferencias en la calidad de la traducción. Nuestros hallazgos indican que si bien CPO supera consistentemente al Ajuste Fino Supervisado (SFT) en datos de alta calidad en lo que respecta a la métrica de alineación, puede provocar inestabilidad en las métricas de evaluación posteriores, especialmente entre las neuronales y las léxicas. Además, demostramos que depender únicamente del modelo base para generar traducciones candidatas logra un rendimiento comparable al uso de múltiples sistemas externos, garantizando una mayor consistencia en las métricas posteriores.
English
Neural metrics for machine translation (MT) evaluation have become
increasingly prominent due to their superior correlation with human judgments
compared to traditional lexical metrics. Researchers have therefore utilized
neural metrics through quality-informed decoding strategies, achieving better
results than likelihood-based methods. With the rise of Large Language Models
(LLMs), preference-based alignment techniques have gained attention for their
potential to enhance translation quality by optimizing model weights directly
on preferences induced by quality estimators. This study focuses on Contrastive
Preference Optimization (CPO) and conducts extensive experiments to evaluate
the impact of preference-based alignment on translation quality. Our findings
indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT)
on high-quality data with regard to the alignment metric, it may lead to
instability across downstream evaluation metrics, particularly between neural
and lexical ones. Additionally, we demonstrate that relying solely on the base
model for generating candidate translations achieves performance comparable to
using multiple external systems, while ensuring better consistency across
downstream metrics.Summary
AI-Generated Summary