Dataset Reset Policy Optimalisatie voor RLHF

Samenvatting

Reinforcement Learning (RL) op basis van feedback uit menselijke voorkeuren is een populair paradigma voor het finetunen van generatieve modellen, wat indrukwekkende modellen zoals GPT-4 en Claude3 Opus heeft opgeleverd. Dit raamwerk bestaat vaak uit twee stappen: het leren van een beloningsmodel op basis van een offline voorkeursdataset, gevolgd door het uitvoeren van online RL om het geleerde beloningsmodel te optimaliseren. In dit werk introduceren we, gebruikmakend van het idee van reset, een nieuw RLHF-algoritme met bewezen garanties. Gemotiveerd door het feit dat offline voorkeursdatasets informatieve toestanden bieden (d.w.z. data die de voorkeur heeft van de labelers), integreert ons nieuwe algoritme, Dataset Reset Policy Optimization (DR-PO), de bestaande offline voorkeursdataset in het online beleidstraject via dataset reset: het zet de beleidsoptimalisatie direct terug naar de toestanden in de offline dataset, in plaats van altijd te beginnen vanuit de initiële toestandsverdeling. Theoretisch tonen we aan dat DR-PO leert om minstens zo goed te presteren als elk beleid dat wordt gedekt door de offline dataset onder algemene functiebenadering met eindige steekproefcomplexiteit. In experimenten demonstreren we dat op zowel de TL;DR-samenvattingsdataset als de Anthropic Helpful Harmful (HH)-dataset, de generatie van DR-PO beter is dan die van Proximal Policy Optimization (PPO) en Direction Preference Optimization (DPO), gemeten aan de hand van de GPT4 win-rate. De code voor dit werk is te vinden op https://github.com/Cornell-RL/drpo.

English

Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative models, which has produced impressive models such as GPT-4 and Claude3 Opus. This framework often consists of two steps: learning a reward model from an offline preference dataset followed by running online RL to optimize the learned reward model. In this work, leveraging the idea of reset, we propose a new RLHF algorithm with provable guarantees. Motivated by the fact that offline preference dataset provides informative states (i.e., data that is preferred by the labelers), our new algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing offline preference dataset into the online policy training procedure via dataset reset: it directly resets the policy optimizer to the states in the offline dataset, instead of always starting from the initial state distribution. In theory, we show that DR-PO learns to perform at least as good as any policy that is covered by the offline dataset under general function approximation with finite sample complexity. In experiments, we demonstrate that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH) dataset, the generation from DR-PO is better than that from Proximal Policy Optimization (PPO) and Direction Preference Optimization (DPO), under the metric of GPT4 win-rate. Code for this work can be found at https://github.com/Cornell-RL/drpo.

Dataset Reset Policy Optimalisatie voor RLHF

Dataset Reset Policy Optimization for RLHF

Samenvatting

Support