好みの整列はLLMベースの翻訳を向上させるための常に最良の選択肢でしょうか? 実証分析
Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis
September 30, 2024
著者: Hippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro
cs.AI
要旨
機械翻訳(MT)評価のためのニューラルメトリクスは、従来の語彙メトリクスと比較して人間の判断との優れた相関性から、ますます注目されています。研究者は、品質に基づくデコーディング戦略を通じてニューラルメトリクスを活用し、尤度ベースの方法よりも優れた結果を達成してきました。大規模言語モデル(LLM)の台頭に伴い、品質推定子によって誘発される選好に直接的にモデルの重みを最適化することで、翻訳品質を向上させる可能性がある選好ベースのアラインメント技術が注目されています。本研究は、対照的な選好最適化(CPO)に焦点を当て、選好ベースのアラインメントが翻訳品質に与える影響を評価するための包括的な実験を実施しています。我々の調査結果は、CPOがアラインメントメトリクスに関して高品質データにおいて常に監督されたファインチューニング(SFT)を上回る一方、ニューラルと語彙のメトリクスの間で特に下流の評価メトリクスにおいて不安定性をもたらす可能性があることを示しています。さらに、候補翻訳の生成に基本モデルだけを頼ることが、複数の外部システムを使用する場合と比較して、下流のメトリクスにおいてより一貫性を確保しながら同等のパフォーマンスを達成することを実証しています。
English
Neural metrics for machine translation (MT) evaluation have become
increasingly prominent due to their superior correlation with human judgments
compared to traditional lexical metrics. Researchers have therefore utilized
neural metrics through quality-informed decoding strategies, achieving better
results than likelihood-based methods. With the rise of Large Language Models
(LLMs), preference-based alignment techniques have gained attention for their
potential to enhance translation quality by optimizing model weights directly
on preferences induced by quality estimators. This study focuses on Contrastive
Preference Optimization (CPO) and conducts extensive experiments to evaluate
the impact of preference-based alignment on translation quality. Our findings
indicate that while CPO consistently outperforms Supervised Fine-Tuning (SFT)
on high-quality data with regard to the alignment metric, it may lead to
instability across downstream evaluation metrics, particularly between neural
and lexical ones. Additionally, we demonstrate that relying solely on the base
model for generating candidate translations achieves performance comparable to
using multiple external systems, while ensuring better consistency across
downstream metrics.Summary
AI-Generated Summary