WPO : Amélioration de l'apprentissage par renforcement à partir de préférences humaines grâce à l'optimisation pondérée des préférences
WPO: Enhancing RLHF with Weighted Preference Optimization
June 17, 2024
Auteurs: Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu
cs.AI
Résumé
L'apprentissage par renforcement à partir de retours humains (RLHF) constitue une solution prometteuse pour aligner plus étroitement les grands modèles de langage (LLMs) avec les valeurs humaines. L'optimisation des préférences hors politique, où les données de préférence sont obtenues à partir d'autres modèles, est largement adoptée en raison de son efficacité en termes de coût et de sa scalabilité. Cependant, l'optimisation des préférences hors politique souffre souvent d'un écart distributionnel entre la politique utilisée pour la collecte des données et la politique cible, ce qui conduit à une optimisation sous-optimale. Dans cet article, nous proposons une nouvelle stratégie pour atténuer ce problème en simulant un apprentissage en politique avec des données de préférence hors politique. Notre méthode d'Optimisation Pondérée des Préférences (WPO) adapte les données hors politique pour qu'elles ressemblent davantage à des données en politique en repondérant les paires de préférences selon leur probabilité sous la politique actuelle. Cette méthode non seulement résout le problème de l'écart distributionnel, mais améliore également le processus d'optimisation sans engendrer de coûts supplémentaires. Nous validons notre méthode sur des benchmarks de suivi d'instructions, notamment Alpaca Eval 2 et MT-bench. WPO surpasse l'Optimisation Directe des Préférences (DPO) jusqu'à 5,6 % sur Alpaca Eval 2 et établit un taux de victoire remarquable de 48,6 % contre GPT-4-turbo en longueur contrôlée, basé sur Llama-3-8B-Instruct, ce qui en fait le modèle 8B le plus performant du classement. Nous publierons le code et les modèles sur https://github.com/wzhouad/WPO.
English
Reinforcement learning from human feedback (RLHF) is a promising solution to
align large language models (LLMs) more closely with human values. Off-policy
preference optimization, where the preference data is obtained from other
models, is widely adopted due to its cost efficiency and scalability. However,
off-policy preference optimization often suffers from a distributional gap
between the policy used for data collection and the target policy, leading to
suboptimal optimization. In this paper, we propose a novel strategy to mitigate
this problem by simulating on-policy learning with off-policy preference data.
Our Weighted Preference Optimization (WPO) method adapts off-policy data to
resemble on-policy data more closely by reweighting preference pairs according
to their probability under the current policy. This method not only addresses
the distributional gap problem but also enhances the optimization process
without incurring additional costs. We validate our method on instruction
following benchmarks including Alpaca Eval 2 and MT-bench. WPO not only
outperforms Direct Preference Optimization (DPO) by up to 5.6% on Alpaca Eval 2
but also establishes a remarkable length-controlled winning rate against
GPT-4-turbo of 48.6% based on Llama-3-8B-Instruct, making it the strongest 8B
model on the leaderboard. We will release the code and models at
https://github.com/wzhouad/WPO.Summary
AI-Generated Summary