反復的ナッシュ政策最適化:ノーリグレット学習による大規模言語モデルの一般選好への整合
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning
June 30, 2024
著者: Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu
cs.AI
要旨
人間のフィードバックを用いた強化学習(RLHF)は、大規模言語モデル(LLM)を人間の選好に適合させることに大きな成功を収めてきました。現在主流のRLHFアプローチは、報酬ベースであり、Bradley-Terry(BT)モデルの仮定に従っていますが、これは人間の選好の複雑さを完全には捉えられない可能性があります。本論文では、一般的な選好フレームワークの下でRLHFを探求し、ゲーム理論的視点からアプローチします。具体的には、この問題を2プレイヤーゲームとして定式化し、新しいアルゴリズムである反復ナッシュ政策最適化(INPO)を提案します。鍵となるアイデアは、政策をノーリグレット学習を通じて自己対戦させることで、ナッシュ政策を近似することです。従来の方法とは異なり、INPOは個々の応答に対する期待勝率を推定する必要性を回避し、これにより通常高い計算コストやアノテーションコストがかかる問題を解決します。代わりに、選好データセット上で直接最小化される新しい損失目的関数を導入します。我々はこのアプローチに対する理論的分析を提供し、様々な代表的なベンチマークでの実験を通じてその有効性を実証します。LLaMA-3-8BベースのSFTモデルを用いて、INPOはAlpacaEval 2.0で41.5%の長さ制御勝率、Arena-Hardで38.3%の勝率を達成し、BTモデル仮定下での最新の反復アルゴリズム[Dong et al., 2024]を大幅に上回る結果を示しました。さらに、アブレーションスタディでは、応答長制御のためのKL正則化の効果が強調されています。
English
Reinforcement Learning with Human Feedback (RLHF) has achieved great success
in aligning large language models (LLMs) with human preferences. Prevalent RLHF
approaches are reward-based, following the Bradley-Terry (BT) model assumption,
which may not fully capture the complexity of human preferences. In this paper,
we explore RLHF under a general preference framework and approach it from a
game-theoretic perspective. Specifically, we formulate the problem as a
two-player game and propose a novel algorithm, iterative Nash policy
optimization (INPO). The key idea is to let the policy play against itself via
no-regret learning, thereby approximating the Nash policy. Unlike previous
methods, INPO bypasses the need for estimating the expected win rate for
individual responses, which typically incurs high computational or annotation
costs. Instead, we introduce a new loss objective that is directly minimized
over a preference dataset. We provide theoretical analysis for our approach and
demonstrate its effectiveness through experiments on various representative
benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5%
length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on
Arena-Hard, showing substantial improvement over the state-of-the-art iterative
algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our
ablation study highlights the benefits of incorporating KL regularization for
response length control.