WPO: Verbetering van RLHF met Gewogen Voorkeursoptimalisatie
WPO: Enhancing RLHF with Weighted Preference Optimization
June 17, 2024
Auteurs: Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu
cs.AI
Samenvatting
Reinforcement learning from human feedback (RLHF) is een veelbelovende oplossing om grote taalmmodellen (LLMs) beter af te stemmen op menselijke waarden. Off-policy voorkeursoptimalisatie, waarbij de voorkeursgegevens worden verkregen van andere modellen, wordt veel gebruikt vanwege de kostenefficiëntie en schaalbaarheid. Off-policy voorkeursoptimalisatie heeft echter vaak te maken met een distributiekloof tussen het beleid dat wordt gebruikt voor gegevensverzameling en het doelbeleid, wat leidt tot suboptimale optimalisatie. In dit artikel stellen we een nieuwe strategie voor om dit probleem te verlichten door on-policy learning te simuleren met off-policy voorkeursgegevens. Onze Weighted Preference Optimization (WPO)-methode past off-policy gegevens aan zodat ze meer lijken op on-policy gegevens door voorkeursparen te herwegen op basis van hun waarschijnlijkheid onder het huidige beleid. Deze methode lost niet alleen het distributieprobleem op, maar verbetert ook het optimalisatieproces zonder extra kosten te maken. We valideren onze methode op benchmarks voor instructievolging, waaronder Alpaca Eval 2 en MT-bench. WPO presteert niet alleen tot 5,6% beter dan Direct Preference Optimization (DPO) op Alpaca Eval 2, maar behaalt ook een opmerkelijke lengte-gecontroleerde winstratio van 48,6% tegen GPT-4-turbo op basis van Llama-3-8B-Instruct, waardoor het het sterkste 8B-model op de leaderboard is. We zullen de code en modellen vrijgeven op https://github.com/wzhouad/WPO.
English
Reinforcement learning from human feedback (RLHF) is a promising solution to
align large language models (LLMs) more closely with human values. Off-policy
preference optimization, where the preference data is obtained from other
models, is widely adopted due to its cost efficiency and scalability. However,
off-policy preference optimization often suffers from a distributional gap
between the policy used for data collection and the target policy, leading to
suboptimal optimization. In this paper, we propose a novel strategy to mitigate
this problem by simulating on-policy learning with off-policy preference data.
Our Weighted Preference Optimization (WPO) method adapts off-policy data to
resemble on-policy data more closely by reweighting preference pairs according
to their probability under the current policy. This method not only addresses
the distributional gap problem but also enhances the optimization process
without incurring additional costs. We validate our method on instruction
following benchmarks including Alpaca Eval 2 and MT-bench. WPO not only
outperforms Direct Preference Optimization (DPO) by up to 5.6% on Alpaca Eval 2
but also establishes a remarkable length-controlled winning rate against
GPT-4-turbo of 48.6% based on Llama-3-8B-Instruct, making it the strongest 8B
model on the leaderboard. We will release the code and models at
https://github.com/wzhouad/WPO.