ChatPaper.aiChatPaper

Является ли выравнивание предпочтений всегда лучшим вариантом для улучшения перевода на основе LLM? Эмпирический анализ

Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis

September 30, 2024
Авторы: Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro
cs.AI

Аннотация

Нейрометрики для оценки машинного перевода (MT) стали все более заметными из-за их превосходной корреляции с человеческими оценками по сравнению с традиционными лексическими метриками. Исследователи поэтому используют нейрометрики через стратегии декодирования, основанные на качестве, достигая лучших результатов по сравнению с методами, основанными на вероятности. С появлением больших языковых моделей (LLM) техники выравнивания на основе предпочтений привлекли внимание своим потенциалом улучшить качество перевода путем оптимизации весов модели непосредственно на предпочтениях, вызванных оценщиками качества. В данном исследовании акцент сделан на контрастной оптимизации предпочтений (CPO) и проведены обширные эксперименты для оценки влияния выравнивания на основе предпочтений на качество перевода. Наши результаты показывают, что в то время как CPO последовательно превосходит надзорное дообучение (SFT) на данных высокого качества по метрике выравнивания, это может привести к нестабильности по отношению к метрикам оценки на следующем уровне, особенно между нейронными и лексическими метриками. Кроме того, мы демонстрируем, что полагаясь исключительно на базовую модель для генерации кандидатских переводов, достигается производительность, сравнимая с использованием нескольких внешних систем, обеспечивая при этом лучшую последовательность по метрикам на следующем уровне.
English
Neural metrics for machine translation (MT) evaluation have become increasingly prominent due to their superior correlation with human judgments compared to traditional lexical metrics. Researchers have therefore utilized neural metrics through quality-informed decoding strategies, achieving better results than likelihood-based methods. With the rise of Large Language Models (LLMs), preference-based alignment techniques have gained attention for their potential to enhance translation quality by optimizing model weights directly on preferences induced by quality estimators. This study focuses on Contrastive Preference Optimization (CPO) and conducts extensive experiments to evaluate the impact of preference-based alignment on translation quality. Our findings indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT) on high-quality data with regard to the alignment metric, it may lead to instability across downstream evaluation metrics, particularly between neural and lexical ones. Additionally, we demonstrate that relying solely on the base model for generating candidate translations achieves performance comparable to using multiple external systems, while ensuring better consistency across downstream metrics.

Summary

AI-Generated Summary

PDF162November 16, 2024