Politica di Ottimizzazione con Reset del Dataset per RLHF

Abstract

Il Reinforcement Learning (RL) basato su feedback di preferenze umane è un paradigma popolare per il fine-tuning di modelli generativi, che ha prodotto modelli impressionanti come GPT-4 e Claude3 Opus. Questo framework consiste spesso in due passaggi: apprendere un modello di ricompensa da un dataset di preferenze offline, seguito dall'esecuzione di RL online per ottimizzare il modello di ricompensa appreso. In questo lavoro, sfruttando l'idea di reset, proponiamo un nuovo algoritmo RLHF con garanzie dimostrabili. Motivati dal fatto che il dataset di preferenze offline fornisce stati informativi (cioè dati preferiti dagli annotatori), il nostro nuovo algoritmo, Dataset Reset Policy Optimization (DR-PO), integra il dataset di preferenze offline esistente nel processo di addestramento della policy online tramite il reset del dataset: ripristina direttamente l'ottimizzatore della policy agli stati presenti nel dataset offline, invece di partire sempre dalla distribuzione iniziale degli stati. In teoria, dimostriamo che DR-PO impara a performare almeno quanto qualsiasi policy coperta dal dataset offline, sotto approssimazione di funzioni generali con complessità campionaria finita. Negli esperimenti, dimostriamo che sia nel dataset di riassunto TL;DR che nel dataset Anthropic Helpful Harmful (HH), la generazione di DR-PO è migliore rispetto a quella di Proximal Policy Optimization (PPO) e Direction Preference Optimization (DPO), secondo la metrica del tasso di vittoria di GPT4. Il codice per questo lavoro è disponibile su https://github.com/Cornell-RL/drpo.

English

Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative models, which has produced impressive models such as GPT-4 and Claude3 Opus. This framework often consists of two steps: learning a reward model from an offline preference dataset followed by running online RL to optimize the learned reward model. In this work, leveraging the idea of reset, we propose a new RLHF algorithm with provable guarantees. Motivated by the fact that offline preference dataset provides informative states (i.e., data that is preferred by the labelers), our new algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing offline preference dataset into the online policy training procedure via dataset reset: it directly resets the policy optimizer to the states in the offline dataset, instead of always starting from the initial state distribution. In theory, we show that DR-PO learns to perform at least as good as any policy that is covered by the offline dataset under general function approximation with finite sample complexity. In experiments, we demonstrate that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH) dataset, the generation from DR-PO is better than that from Proximal Policy Optimization (PPO) and Direction Preference Optimization (DPO), under the metric of GPT4 win-rate. Code for this work can be found at https://github.com/Cornell-RL/drpo.

Politica di Ottimizzazione con Reset del Dataset per RLHF

Dataset Reset Policy Optimization for RLHF

Abstract

Support