WPO: 重み付き選好最適化によるRLHFの強化
WPO: Enhancing RLHF with Weighted Preference Optimization
June 17, 2024
著者: Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu
cs.AI
要旨
人間のフィードバックによる強化学習(RLHF)は、大規模言語モデル(LLM)を人間の価値観により密接に整合させるための有望な解決策です。オフポリシーの選好最適化は、他のモデルから選好データを取得するため、コスト効率とスケーラビリティの観点から広く採用されています。しかし、オフポリシーの選好最適化では、データ収集に使用されるポリシーとターゲットポリシーの間に分布のギャップが生じ、最適化が不十分になることがよくあります。本論文では、オフポリシーの選好データを用いてオンポリシー学習をシミュレートすることで、この問題を緩和する新しい戦略を提案します。私たちのWeighted Preference Optimization(WPO)メソッドは、現在のポリシー下での確率に基づいて選好ペアを再重み付けすることで、オフポリシーデータをオンポリシーデータに近づけるように適応させます。この方法は、分布のギャップ問題を解決するだけでなく、追加コストをかけずに最適化プロセスを強化します。私たちは、Alpaca Eval 2やMT-benchを含む指示追従ベンチマークでこの方法を検証しました。WPOは、Alpaca Eval 2でDirect Preference Optimization(DPO)を最大5.6%上回るだけでなく、Llama-3-8B-Instructに基づいてGPT-4-turboに対して48.6%という驚異的な長さ制御勝率を達成し、リーダーボード上で最強の8Bモデルとなりました。コードとモデルはhttps://github.com/wzhouad/WPOで公開します。
English
Reinforcement learning from human feedback (RLHF) is a promising solution to
align large language models (LLMs) more closely with human values. Off-policy
preference optimization, where the preference data is obtained from other
models, is widely adopted due to its cost efficiency and scalability. However,
off-policy preference optimization often suffers from a distributional gap
between the policy used for data collection and the target policy, leading to
suboptimal optimization. In this paper, we propose a novel strategy to mitigate
this problem by simulating on-policy learning with off-policy preference data.
Our Weighted Preference Optimization (WPO) method adapts off-policy data to
resemble on-policy data more closely by reweighting preference pairs according
to their probability under the current policy. This method not only addresses
the distributional gap problem but also enhances the optimization process
without incurring additional costs. We validate our method on instruction
following benchmarks including Alpaca Eval 2 and MT-bench. WPO not only
outperforms Direct Preference Optimization (DPO) by up to 5.6% on Alpaca Eval 2
but also establishes a remarkable length-controlled winning rate against
GPT-4-turbo of 48.6% based on Llama-3-8B-Instruct, making it the strongest 8B
model on the leaderboard. We will release the code and models at
https://github.com/wzhouad/WPO.Summary
AI-Generated Summary