Dataset Reset Policy Optimalisatie voor RLHF
Dataset Reset Policy Optimization for RLHF
April 12, 2024
Auteurs: Jonathan D. Chang, Wenhao Shan, Owen Oertell, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun
cs.AI
Samenvatting
Reinforcement Learning (RL) op basis van feedback uit menselijke voorkeuren is een populair paradigma voor het finetunen van generatieve modellen, wat indrukwekkende modellen zoals GPT-4 en Claude3 Opus heeft opgeleverd. Dit raamwerk bestaat vaak uit twee stappen: het leren van een beloningsmodel op basis van een offline voorkeursdataset, gevolgd door het uitvoeren van online RL om het geleerde beloningsmodel te optimaliseren. In dit werk introduceren we, gebruikmakend van het idee van reset, een nieuw RLHF-algoritme met bewezen garanties. Gemotiveerd door het feit dat offline voorkeursdatasets informatieve toestanden bieden (d.w.z. data die de voorkeur heeft van de labelers), integreert ons nieuwe algoritme, Dataset Reset Policy Optimization (DR-PO), de bestaande offline voorkeursdataset in het online beleidstraject via dataset reset: het zet de beleidsoptimalisatie direct terug naar de toestanden in de offline dataset, in plaats van altijd te beginnen vanuit de initiële toestandsverdeling. Theoretisch tonen we aan dat DR-PO leert om minstens zo goed te presteren als elk beleid dat wordt gedekt door de offline dataset onder algemene functiebenadering met eindige steekproefcomplexiteit. In experimenten demonstreren we dat op zowel de TL;DR-samenvattingsdataset als de Anthropic Helpful Harmful (HH)-dataset, de generatie van DR-PO beter is dan die van Proximal Policy Optimization (PPO) en Direction Preference Optimization (DPO), gemeten aan de hand van de GPT4 win-rate. De code voor dit werk is te vinden op https://github.com/Cornell-RL/drpo.
English
Reinforcement Learning (RL) from Human Preference-based feedback is a popular
paradigm for fine-tuning generative models, which has produced impressive
models such as GPT-4 and Claude3 Opus. This framework often consists of two
steps: learning a reward model from an offline preference dataset followed by
running online RL to optimize the learned reward model. In this work,
leveraging the idea of reset, we propose a new RLHF algorithm with provable
guarantees. Motivated by the fact that offline preference dataset provides
informative states (i.e., data that is preferred by the labelers), our new
algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing
offline preference dataset into the online policy training procedure via
dataset reset: it directly resets the policy optimizer to the states in the
offline dataset, instead of always starting from the initial state
distribution. In theory, we show that DR-PO learns to perform at least as good
as any policy that is covered by the offline dataset under general function
approximation with finite sample complexity. In experiments, we demonstrate
that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH)
dataset, the generation from DR-PO is better than that from Proximal Policy
Optimization (PPO) and Direction Preference Optimization (DPO), under the
metric of GPT4 win-rate. Code for this work can be found at
https://github.com/Cornell-RL/drpo.