価値誘導型選好最適化:オンラインおよびオフラインRLHFの統合的アプローチ
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF
May 29, 2024
著者: Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai
cs.AI
要旨
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の好みに合わせる上で大きな可能性を示しています。好みデータの可用性に応じて、オンラインおよびオフラインのRLHFが活発に研究されています。重要な課題は、好みデータがどのように収集されたかにかかわらず、RLHFのために好みデータから学習された報酬関数に不確実性推定を組み込む方法を理解することです。不確実性下での楽観主義または悲観主義の原則は標準的な強化学習(RL)では確立されていますが、大規模言語モデルに適した実用的かつ理論的に裏付けられた形式はまだ利用できません。これは、任意のポリシーパラメータ化の下では、信頼区間を構築する標準的な手法が扱いにくくなるためです。
本論文では、オンラインおよびオフラインRLHFに対する統一的なアプローチとして、価値誘導型選好最適化(VPO)を提案します。VPOは、報酬関数の最尤推定を対応する価値関数で正則化し、楽観主義または悲観主義の選択を示す符号で調整します。VPOはまた、暗黙的な報酬モデリングを通じて直接ポリシーを最適化するため、直接選好最適化と同様のシンプルなRLHFパイプラインを共有します。VPOの理論的保証は、オンラインおよびオフラインの設定で提供され、標準RLの対応するレートと一致します。さらに、テキスト要約と対話に関する実験により、VPOの実用性と有効性が検証されています。
English
Reinforcement learning from human feedback (RLHF) has demonstrated great
promise in aligning large language models (LLMs) with human preference.
Depending on the availability of preference data, both online and offline RLHF
are active areas of investigation. A key bottleneck is understanding how to
incorporate uncertainty estimation in the reward function learned from the
preference data for RLHF, regardless of how the preference data is collected.
While the principles of optimism or pessimism under uncertainty are
well-established in standard reinforcement learning (RL), a
practically-implementable and theoretically-grounded form amenable to large
language models is not yet available, as standard techniques for constructing
confidence intervals become intractable under arbitrary policy
parameterizations.
In this paper, we introduce a unified approach to online and offline RLHF --
value-incentivized preference optimization (VPO) -- which regularizes the
maximum-likelihood estimate of the reward function with the corresponding value
function, modulated by a sign to indicate whether the optimism or
pessimism is chosen. VPO also directly optimizes the policy with implicit
reward modeling, and therefore shares a simpler RLHF pipeline similar to direct
preference optimization. Theoretical guarantees of VPO are provided for both
online and offline settings, matching the rates of their standard RL
counterparts. Moreover, experiments on text summarization and dialog verify the
practicality and effectiveness of VPO.Summary
AI-Generated Summary