A Preferência de Alinhamento é Sempre a Melhor Opção para Melhorar a Tradução Baseada em LLM? Uma Análise Empírica
Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis
September 30, 2024
Autores: Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro
cs.AI
Resumo
As métricas neurais para avaliação de tradução automática (TA) tornaram-se cada vez mais proeminentes devido à sua correlação superior com julgamentos humanos em comparação com métricas lexicais tradicionais. Os pesquisadores têm utilizado, portanto, métricas neurais por meio de estratégias de decodificação informadas pela qualidade, alcançando melhores resultados do que métodos baseados em probabilidade. Com o surgimento de Modelos de Linguagem Grandes (LLMs), técnicas de alinhamento baseadas em preferências têm recebido atenção por seu potencial de aprimorar a qualidade da tradução otimizando os pesos do modelo diretamente com base em preferências induzidas por estimadores de qualidade. Este estudo concentra-se na Otimização de Preferência Contrastiva (CPO) e conduz experimentos extensivos para avaliar o impacto do alinhamento baseado em preferências na qualidade da tradução. Nossas descobertas indicam que, embora o CPO supere consistentemente o Ajuste Fino Supervisionado (SFT) em dados de alta qualidade em relação à métrica de alinhamento, pode levar a instabilidade em métricas de avaliação subsequentes, especialmente entre as neurais e as lexicais. Além disso, demonstramos que depender exclusivamente do modelo base para gerar traduções candidatas alcança desempenho comparável ao uso de múltiplos sistemas externos, garantindo melhor consistência em métricas subsequentes.
English
Neural metrics for machine translation (MT) evaluation have become
increasingly prominent due to their superior correlation with human judgments
compared to traditional lexical metrics. Researchers have therefore utilized
neural metrics through quality-informed decoding strategies, achieving better
results than likelihood-based methods. With the rise of Large Language Models
(LLMs), preference-based alignment techniques have gained attention for their
potential to enhance translation quality by optimizing model weights directly
on preferences induced by quality estimators. This study focuses on Contrastive
Preference Optimization (CPO) and conducts extensive experiments to evaluate
the impact of preference-based alignment on translation quality. Our findings
indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT)
on high-quality data with regard to the alignment metric, it may lead to
instability across downstream evaluation metrics, particularly between neural
and lexical ones. Additionally, we demonstrate that relying solely on the base
model for generating candidate translations achieves performance comparable to
using multiple external systems, while ensuring better consistency across
downstream metrics.Summary
AI-Generated Summary