WPO: Verbesserung von RLHF durch gewichtete Präferenzoptimierung
WPO: Enhancing RLHF with Weighted Preference Optimization
June 17, 2024
Autoren: Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu
cs.AI
Zusammenfassung
Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) ist eine vielversprechende Lösung, um große Sprachmodelle (LLMs) enger an menschlichen Werten auszurichten. Die Off-Policy-Präferenzoptimierung, bei der die Präferenzdaten von anderen Modellen erhalten werden, wird aufgrund ihrer Kosteneffizienz und Skalierbarkeit weit verbreitet eingesetzt. Allerdings leidet die Off-Policy-Präferenzoptimierung oft unter einer Verteilungslücke zwischen der Richtlinie, die für die Datensammlung verwendet wird, und der Zielrichtlinie, was zu einer suboptimalen Optimierung führt. In diesem Papier schlagen wir eine neuartige Strategie vor, um dieses Problem zu mildern, indem wir das On-Policy-Lernen mit Off-Policy-Präferenzdaten simulieren. Unsere Methode der Gewichteten Präferenzoptimierung (WPO) passt Off-Policy-Daten an, um On-Policy-Daten näher zu kommen, indem Präferenzpaare entsprechend ihrer Wahrscheinlichkeit unter der aktuellen Richtlinie neu gewichtet werden. Diese Methode behebt nicht nur das Verteilungslückenproblem, sondern verbessert auch den Optimierungsprozess, ohne zusätzliche Kosten zu verursachen. Wir validieren unsere Methode anhand von Anweisungsfolge-Benchmarks, einschließlich Alpaca Eval 2 und MT-bench. WPO übertrifft nicht nur die Direkte Präferenzoptimierung (DPO) um bis zu 5,6% bei Alpaca Eval 2, sondern etabliert auch eine bemerkenswerte Längenkontrollgewinnrate gegen GPT-4-turbo von 48,6% basierend auf Llama-3-8B-Instruct und wird damit zum stärksten 8B-Modell auf der Bestenliste. Wir werden den Code und die Modelle unter https://github.com/wzhouad/WPO veröffentlichen.
English
Reinforcement learning from human feedback (RLHF) is a promising solution to
align large language models (LLMs) more closely with human values. Off-policy
preference optimization, where the preference data is obtained from other
models, is widely adopted due to its cost efficiency and scalability. However,
off-policy preference optimization often suffers from a distributional gap
between the policy used for data collection and the target policy, leading to
suboptimal optimization. In this paper, we propose a novel strategy to mitigate
this problem by simulating on-policy learning with off-policy preference data.
Our Weighted Preference Optimization (WPO) method adapts off-policy data to
resemble on-policy data more closely by reweighting preference pairs according
to their probability under the current policy. This method not only addresses
the distributional gap problem but also enhances the optimization process
without incurring additional costs. We validate our method on instruction
following benchmarks including Alpaca Eval 2 and MT-bench. WPO not only
outperforms Direct Preference Optimization (DPO) by up to 5.6% on Alpaca Eval 2
but also establishes a remarkable length-controlled winning rate against
GPT-4-turbo of 48.6% based on Llama-3-8B-Instruct, making it the strongest 8B
model on the leaderboard. We will release the code and models at
https://github.com/wzhouad/WPO.Summary
AI-Generated Summary