Ist die Präferenzabstimmung immer die beste Option zur Verbesserung der auf LLM basierenden Übersetzung? Eine empirische Analyse.
Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis
September 30, 2024
Autoren: Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro
cs.AI
Zusammenfassung
Neuronale Metriken zur Bewertung maschineller Übersetzungen (MT) sind aufgrund ihrer überlegenen Korrelation mit menschlichen Beurteilungen im Vergleich zu traditionellen lexikalischen Metriken zunehmend prominent geworden. Forscher haben daher neuronale Metriken durch qualitätsinformierte Dekodierungsstrategien genutzt, um bessere Ergebnisse als wahrscheinlichkeitsbasierte Methoden zu erzielen. Mit dem Aufkommen großer Sprachmodelle (LLMs) haben präferenzbasierte Ausrichtungstechniken aufgrund ihres Potenzials, die Übersetzungsqualität durch direkte Optimierung der Modellgewichte anhand von Präferenzen, die durch Qualitätschätzer induziert werden, Aufmerksamkeit erregt. Diese Studie konzentriert sich auf Kontrastive Präferenzoptimierung (CPO) und führt umfangreiche Experimente durch, um den Einfluss der präferenzbasierten Ausrichtung auf die Übersetzungsqualität zu bewerten. Unsere Ergebnisse deuten darauf hin, dass CPO im Hinblick auf das Ausrichtungsmaß auf hochwertigen Daten im Vergleich zu überwachtem Feintuning (SFT) konsistent bessere Leistungen erbringt, jedoch zu Instabilität bei nachgelagerten Bewertungsmetriken führen kann, insbesondere zwischen neuronalen und lexikalischen Metriken. Darüber hinaus zeigen wir, dass sich die ausschließliche Verwendung des Basismodells zur Generierung von Kandidatenübersetzungen eine vergleichbare Leistung im Vergleich zur Verwendung mehrerer externer Systeme erzielen lässt, wobei eine bessere Konsistenz bei nachgelagerten Metriken gewährleistet ist.
English
Neural metrics for machine translation (MT) evaluation have become
increasingly prominent due to their superior correlation with human judgments
compared to traditional lexical metrics. Researchers have therefore utilized
neural metrics through quality-informed decoding strategies, achieving better
results than likelihood-based methods. With the rise of Large Language Models
(LLMs), preference-based alignment techniques have gained attention for their
potential to enhance translation quality by optimizing model weights directly
on preferences induced by quality estimators. This study focuses on Contrastive
Preference Optimization (CPO) and conducts extensive experiments to evaluate
the impact of preference-based alignment on translation quality. Our findings
indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT)
on high-quality data with regard to the alignment metric, it may lead to
instability across downstream evaluation metrics, particularly between neural
and lexical ones. Additionally, we demonstrate that relying solely on the base
model for generating candidate translations achieves performance comparable to
using multiple external systems, while ensuring better consistency across
downstream metrics.Summary
AI-Generated Summary