RePO: ReLUベースの選好最適化

要旨

大規模言語モデル（LLM）を人間の好みに合わせることは、実世界での展開において極めて重要です。しかし、RLHFのような既存の手法は計算量と安定性の課題に直面しています。DPOは単一のハイパーパラメータbetaを用いたオフラインパラダイムを確立しましたが、SimPOのような後続の手法では二つのパラメータ（beta、gamma）を導入することで複雑さが再び増しています。本論文では、{ReLUベースの選好最適化（RePO）}を提案します。これは、二つの進展を通じてbetaを排除する簡潔なアルゴリズムです：（1）SimPOの参照不要なマージンを保持しつつ、勾配分析を通じてbetaを除去すること、（2）自明なペアを自然にフィルタリングするReLUベースの最大マージン損失を採用することです。理論的には、RePOはSimPOの極限ケース（betaを無限大にした場合）として特徴づけられ、ロジスティック重み付けが二値閾値処理に収束し、0-1損失の凸包を形成します。AlpacaEval 2とArena-Hardでの実験結果は、RePOが複数のベースモデルにおいてDPOとSimPOを上回り、調整が必要なハイパーパラメータが一つだけであることを示しています。

English

Aligning large language models (LLMs) with human preferences is critical for real-world deployment, yet existing methods like RLHF face computational and stability challenges. While DPO establishes an offline paradigm with single hyperparameter beta, subsequent methods like SimPO reintroduce complexity through dual parameters (beta, gamma). We propose {ReLU-based Preference Optimization (RePO)}, a streamlined algorithm that eliminates beta via two advances: (1) retaining SimPO's reference-free margins but removing beta through gradient analysis, and (2) adopting a ReLU-based max-margin loss that naturally filters trivial pairs. Theoretically, RePO is characterized as SimPO's limiting case (beta to infty), where the logistic weighting collapses to binary thresholding, forming a convex envelope of the 0-1 loss. Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO and SimPO across multiple base models, requiring only one hyperparameter to tune.

RePO: ReLUベースの選好最適化

RePO: ReLU-based Preference Optimization

要旨

Support