RePO: ReLUベースの選好最適化
RePO: ReLU-based Preference Optimization
March 10, 2025
著者: Junkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang
cs.AI
要旨
大規模言語モデル(LLM)を人間の好みに合わせることは、実世界での展開において極めて重要です。しかし、RLHFのような既存の手法は計算量と安定性の課題に直面しています。DPOは単一のハイパーパラメータbetaを用いたオフラインパラダイムを確立しましたが、SimPOのような後続の手法では二つのパラメータ(beta、gamma)を導入することで複雑さが再び増しています。本論文では、{ReLUベースの選好最適化(RePO)}を提案します。これは、二つの進展を通じてbetaを排除する簡潔なアルゴリズムです:(1)SimPOの参照不要なマージンを保持しつつ、勾配分析を通じてbetaを除去すること、(2)自明なペアを自然にフィルタリングするReLUベースの最大マージン損失を採用することです。理論的には、RePOはSimPOの極限ケース(betaを無限大にした場合)として特徴づけられ、ロジスティック重み付けが二値閾値処理に収束し、0-1損失の凸包を形成します。AlpacaEval 2とArena-Hardでの実験結果は、RePOが複数のベースモデルにおいてDPOとSimPOを上回り、調整が必要なハイパーパラメータが一つだけであることを示しています。
English
Aligning large language models (LLMs) with human preferences is critical for
real-world deployment, yet existing methods like RLHF face computational and
stability challenges. While DPO establishes an offline paradigm with single
hyperparameter beta, subsequent methods like SimPO reintroduce complexity
through dual parameters (beta, gamma). We propose {ReLU-based Preference
Optimization (RePO)}, a streamlined algorithm that eliminates beta via two
advances: (1) retaining SimPO's reference-free margins but removing beta
through gradient analysis, and (2) adopting a ReLU-based max-margin loss that
naturally filters trivial pairs. Theoretically, RePO is characterized as
SimPO's limiting case (beta to infty), where the logistic weighting
collapses to binary thresholding, forming a convex envelope of the 0-1 loss.
Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO
and SimPO across multiple base models, requiring only one hyperparameter to
tune.Summary
AI-Generated Summary