Is Voorkeursafstemming Altijd de Beste Optie om de Vertaling Gebaseerd op LLM te Verbeteren? Een Empirische Analyse
Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis
September 30, 2024
Auteurs: Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro
cs.AI
Samenvatting
Neurale metrieken voor machinale vertalingsevaluatie zijn steeds prominenter geworden vanwege hun superieure correlatie met menselijke beoordelingen in vergelijking met traditionele lexicaire metrieken. Onderzoekers hebben daarom neurale metrieken toegepast via kwaliteitsgeïnformeerde decoderingsstrategieën, waardoor betere resultaten worden behaald dan op waarschijnlijkheid gebaseerde methoden. Met de opkomst van Grote Taalmodellen (GTM's) hebben voorkeursgebaseerde aligneringstechnieken aandacht gekregen vanwege hun potentieel om de vertaalkwaliteit te verbeteren door modelgewichten rechtstreeks te optimaliseren op voorkeuren die worden geïnduceerd door kwaliteitsschattingen. Deze studie richt zich op Contrastieve VoorkeursOptimalisatie (CVO) en voert uitgebreide experimenten uit om de impact van voorkeursgebaseerde alignering op vertaalkwaliteit te evalueren. Onze bevindingen geven aan dat hoewel CVO consequent beter presteert dan Onder toezicht staand Fijnafstemmen (OTS) op hoogwaardige gegevens met betrekking tot de aligneringsmetriek, dit kan leiden tot instabiliteit over verschillende evaluatiemetrieken, met name tussen neurale en lexicaire metrieken. Daarnaast tonen we aan dat uitsluitend vertrouwen op het basismodel voor het genereren van kandidaatvertalingen prestaties oplevert die vergelijkbaar zijn met het gebruik van meerdere externe systemen, terwijl betere consistentie over verschillende evaluatiemetrieken wordt gegarandeerd.
English
Neural metrics for machine translation (MT) evaluation have become
increasingly prominent due to their superior correlation with human judgments
compared to traditional lexical metrics. Researchers have therefore utilized
neural metrics through quality-informed decoding strategies, achieving better
results than likelihood-based methods. With the rise of Large Language Models
(LLMs), preference-based alignment techniques have gained attention for their
potential to enhance translation quality by optimizing model weights directly
on preferences induced by quality estimators. This study focuses on Contrastive
Preference Optimization (CPO) and conducts extensive experiments to evaluate
the impact of preference-based alignment on translation quality. Our findings
indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT)
on high-quality data with regard to the alignment metric, it may lead to
instability across downstream evaluation metrics, particularly between neural
and lexical ones. Additionally, we demonstrate that relying solely on the base
model for generating candidate translations achieves performance comparable to
using multiple external systems, while ensuring better consistency across
downstream metrics.Summary
AI-Generated Summary