Politica di Ottimizzazione con Reset del Dataset per RLHF
Dataset Reset Policy Optimization for RLHF
April 12, 2024
Autori: Jonathan D. Chang, Wenhao Shan, Owen Oertell, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun
cs.AI
Abstract
Il Reinforcement Learning (RL) basato su feedback di preferenze umane è un paradigma popolare per il fine-tuning di modelli generativi, che ha prodotto modelli impressionanti come GPT-4 e Claude3 Opus. Questo framework consiste spesso in due passaggi: apprendere un modello di ricompensa da un dataset di preferenze offline, seguito dall'esecuzione di RL online per ottimizzare il modello di ricompensa appreso. In questo lavoro, sfruttando l'idea di reset, proponiamo un nuovo algoritmo RLHF con garanzie dimostrabili. Motivati dal fatto che il dataset di preferenze offline fornisce stati informativi (cioè dati preferiti dagli annotatori), il nostro nuovo algoritmo, Dataset Reset Policy Optimization (DR-PO), integra il dataset di preferenze offline esistente nel processo di addestramento della policy online tramite il reset del dataset: ripristina direttamente l'ottimizzatore della policy agli stati presenti nel dataset offline, invece di partire sempre dalla distribuzione iniziale degli stati. In teoria, dimostriamo che DR-PO impara a performare almeno quanto qualsiasi policy coperta dal dataset offline, sotto approssimazione di funzioni generali con complessità campionaria finita. Negli esperimenti, dimostriamo che sia nel dataset di riassunto TL;DR che nel dataset Anthropic Helpful Harmful (HH), la generazione di DR-PO è migliore rispetto a quella di Proximal Policy Optimization (PPO) e Direction Preference Optimization (DPO), secondo la metrica del tasso di vittoria di GPT4. Il codice per questo lavoro è disponibile su https://github.com/Cornell-RL/drpo.
English
Reinforcement Learning (RL) from Human Preference-based feedback is a popular
paradigm for fine-tuning generative models, which has produced impressive
models such as GPT-4 and Claude3 Opus. This framework often consists of two
steps: learning a reward model from an offline preference dataset followed by
running online RL to optimize the learned reward model. In this work,
leveraging the idea of reset, we propose a new RLHF algorithm with provable
guarantees. Motivated by the fact that offline preference dataset provides
informative states (i.e., data that is preferred by the labelers), our new
algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing
offline preference dataset into the online policy training procedure via
dataset reset: it directly resets the policy optimizer to the states in the
offline dataset, instead of always starting from the initial state
distribution. In theory, we show that DR-PO learns to perform at least as good
as any policy that is covered by the offline dataset under general function
approximation with finite sample complexity. In experiments, we demonstrate
that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH)
dataset, the generation from DR-PO is better than that from Proximal Policy
Optimization (PPO) and Direction Preference Optimization (DPO), under the
metric of GPT4 win-rate. Code for this work can be found at
https://github.com/Cornell-RL/drpo.