ChatPaper.aiChatPaper

È sempre la Migliore Opzione allineare le Preferenze per Migliorare la Traduzione Basata su LLM? Un'Analisi Empirica

Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis

September 30, 2024
Autori: Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro
cs.AI

Abstract

Le metriche neurali per la valutazione della traduzione automatica (MT) sono diventate sempre più prominenti a causa della loro correlazione superiore con i giudizi umani rispetto alle metriche lessicali tradizionali. Di conseguenza, i ricercatori hanno utilizzato le metriche neurali tramite strategie di decodifica informate sulla qualità, ottenendo risultati migliori rispetto ai metodi basati sulla verosimiglianza. Con la diffusione dei Grandi Modelli Linguistici (LLM), le tecniche di allineamento basate sulle preferenze hanno attirato l'attenzione per il loro potenziale nel migliorare la qualità della traduzione ottimizzando direttamente i pesi del modello sulle preferenze indotte dagli stimatori di qualità. Questo studio si concentra sull'ottimizzazione delle preferenze contrastive (CPO) e conduce ampi esperimenti per valutare l'impatto dell'allineamento basato sulle preferenze sulla qualità della traduzione. I nostri risultati indicano che, sebbene CPO superi costantemente il Fine-Tuning Supervisionato (SFT) su dati di alta qualità per quanto riguarda la metrica di allineamento, potrebbe portare a instabilità tra le metriche di valutazione successive, in particolare tra quelle neurali e lessicali. Inoltre, dimostriamo che fare affidamento esclusivamente sul modello base per generare traduzioni candidate raggiunge prestazioni paragonabili all'utilizzo di più sistemi esterni, garantendo una maggiore coerenza tra le metriche successive.
English
Neural metrics for machine translation (MT) evaluation have become increasingly prominent due to their superior correlation with human judgments compared to traditional lexical metrics. Researchers have therefore utilized neural metrics through quality-informed decoding strategies, achieving better results than likelihood-based methods. With the rise of Large Language Models (LLMs), preference-based alignment techniques have gained attention for their potential to enhance translation quality by optimizing model weights directly on preferences induced by quality estimators. This study focuses on Contrastive Preference Optimization (CPO) and conducts extensive experiments to evaluate the impact of preference-based alignment on translation quality. Our findings indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT) on high-quality data with regard to the alignment metric, it may lead to instability across downstream evaluation metrics, particularly between neural and lexical ones. Additionally, we demonstrate that relying solely on the base model for generating candidate translations achieves performance comparable to using multiple external systems, while ensuring better consistency across downstream metrics.
PDF172November 16, 2024