Politique de Réinitialisation des Données pour l'Optimisation de l'Apprentissage par Renforcement avec Feedback Humain
Dataset Reset Policy Optimization for RLHF
April 12, 2024
Auteurs: Jonathan D. Chang, Wenhao Shan, Owen Oertell, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun
cs.AI
Résumé
L'apprentissage par renforcement (Reinforcement Learning, RL) basé sur les préférences humaines est un paradigme populaire pour le réglage fin des modèles génératifs, ayant produit des modèles impressionnants tels que GPT-4 et Claude3 Opus. Ce cadre se compose généralement de deux étapes : l'apprentissage d'un modèle de récompense à partir d'un ensemble de données de préférences hors ligne, suivi de l'exécution d'un RL en ligne pour optimiser le modèle de récompense appris. Dans ce travail, en exploitant l'idée de réinitialisation, nous proposons un nouvel algorithme RLHF avec des garanties théoriques. Motivés par le fait que l'ensemble de données de préférences hors ligne fournit des états informatifs (c'est-à-dire des données préférées par les annotateurs), notre nouvel algorithme, Dataset Reset Policy Optimization (DR-PO), intègre l'ensemble de données de préférences existant dans la procédure d'entraînement de la politique en ligne via une réinitialisation de l'ensemble de données : il réinitialise directement l'optimiseur de politique aux états de l'ensemble de données hors ligne, au lieu de toujours partir de la distribution d'état initiale. Théoriquement, nous montrons que DR-PO apprend à performer au moins aussi bien que toute politique couverte par l'ensemble de données hors ligne, sous approximation de fonction générale avec une complexité d'échantillonnage finie. Expérimentalement, nous démontrons que sur les ensembles de données de résumé TL;DR et Anthropic Helpful Harmful (HH), la génération de DR-PO est meilleure que celle de Proximal Policy Optimization (PPO) et Direction Preference Optimization (DPO), selon la métrique du taux de victoire GPT4. Le code de ce travail est disponible à l'adresse https://github.com/Cornell-RL/drpo.
English
Reinforcement Learning (RL) from Human Preference-based feedback is a popular
paradigm for fine-tuning generative models, which has produced impressive
models such as GPT-4 and Claude3 Opus. This framework often consists of two
steps: learning a reward model from an offline preference dataset followed by
running online RL to optimize the learned reward model. In this work,
leveraging the idea of reset, we propose a new RLHF algorithm with provable
guarantees. Motivated by the fact that offline preference dataset provides
informative states (i.e., data that is preferred by the labelers), our new
algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing
offline preference dataset into the online policy training procedure via
dataset reset: it directly resets the policy optimizer to the states in the
offline dataset, instead of always starting from the initial state
distribution. In theory, we show that DR-PO learns to perform at least as good
as any policy that is covered by the offline dataset under general function
approximation with finite sample complexity. In experiments, we demonstrate
that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH)
dataset, the generation from DR-PO is better than that from Proximal Policy
Optimization (PPO) and Direction Preference Optimization (DPO), under the
metric of GPT4 win-rate. Code for this work can be found at
https://github.com/Cornell-RL/drpo.Summary
AI-Generated Summary