ChatPaper.aiChatPaper

WPO: 重み付き選好最適化によるRLHFの強化

WPO: Enhancing RLHF with Weighted Preference Optimization

June 17, 2024
著者: Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu
cs.AI

要旨

人間のフィードバックによる強化学習(RLHF)は、大規模言語モデル(LLM)を人間の価値観により密接に整合させるための有望な解決策です。オフポリシーの選好最適化は、他のモデルから選好データを取得するため、コスト効率とスケーラビリティの観点から広く採用されています。しかし、オフポリシーの選好最適化では、データ収集に使用されるポリシーとターゲットポリシーの間に分布のギャップが生じ、最適化が不十分になることがよくあります。本論文では、オフポリシーの選好データを用いてオンポリシー学習をシミュレートすることで、この問題を緩和する新しい戦略を提案します。私たちのWeighted Preference Optimization(WPO)メソッドは、現在のポリシー下での確率に基づいて選好ペアを再重み付けすることで、オフポリシーデータをオンポリシーデータに近づけるように適応させます。この方法は、分布のギャップ問題を解決するだけでなく、追加コストをかけずに最適化プロセスを強化します。私たちは、Alpaca Eval 2やMT-benchを含む指示追従ベンチマークでこの方法を検証しました。WPOは、Alpaca Eval 2でDirect Preference Optimization(DPO)を最大5.6%上回るだけでなく、Llama-3-8B-Instructに基づいてGPT-4-turboに対して48.6%という驚異的な長さ制御勝率を達成し、リーダーボード上で最強の8Bモデルとなりました。コードとモデルはhttps://github.com/wzhouad/WPOで公開します。
English
Reinforcement learning from human feedback (RLHF) is a promising solution to align large language models (LLMs) more closely with human values. Off-policy preference optimization, where the preference data is obtained from other models, is widely adopted due to its cost efficiency and scalability. However, off-policy preference optimization often suffers from a distributional gap between the policy used for data collection and the target policy, leading to suboptimal optimization. In this paper, we propose a novel strategy to mitigate this problem by simulating on-policy learning with off-policy preference data. Our Weighted Preference Optimization (WPO) method adapts off-policy data to resemble on-policy data more closely by reweighting preference pairs according to their probability under the current policy. This method not only addresses the distributional gap problem but also enhances the optimization process without incurring additional costs. We validate our method on instruction following benchmarks including Alpaca Eval 2 and MT-bench. WPO not only outperforms Direct Preference Optimization (DPO) by up to 5.6% on Alpaca Eval 2 but also establishes a remarkable length-controlled winning rate against GPT-4-turbo of 48.6% based on Llama-3-8B-Instruct, making it the strongest 8B model on the leaderboard. We will release the code and models at https://github.com/wzhouad/WPO.

Summary

AI-Generated Summary

PDF151December 6, 2024