Politique de Réinitialisation des Données pour l'Optimisation de l'Apprentissage par Renforcement avec Feedback Humain

papers.abstract

L'apprentissage par renforcement (Reinforcement Learning, RL) basé sur les préférences humaines est un paradigme populaire pour le réglage fin des modèles génératifs, ayant produit des modèles impressionnants tels que GPT-4 et Claude3 Opus. Ce cadre se compose généralement de deux étapes : l'apprentissage d'un modèle de récompense à partir d'un ensemble de données de préférences hors ligne, suivi de l'exécution d'un RL en ligne pour optimiser le modèle de récompense appris. Dans ce travail, en exploitant l'idée de réinitialisation, nous proposons un nouvel algorithme RLHF avec des garanties théoriques. Motivés par le fait que l'ensemble de données de préférences hors ligne fournit des états informatifs (c'est-à-dire des données préférées par les annotateurs), notre nouvel algorithme, Dataset Reset Policy Optimization (DR-PO), intègre l'ensemble de données de préférences existant dans la procédure d'entraînement de la politique en ligne via une réinitialisation de l'ensemble de données : il réinitialise directement l'optimiseur de politique aux états de l'ensemble de données hors ligne, au lieu de toujours partir de la distribution d'état initiale. Théoriquement, nous montrons que DR-PO apprend à performer au moins aussi bien que toute politique couverte par l'ensemble de données hors ligne, sous approximation de fonction générale avec une complexité d'échantillonnage finie. Expérimentalement, nous démontrons que sur les ensembles de données de résumé TL;DR et Anthropic Helpful Harmful (HH), la génération de DR-PO est meilleure que celle de Proximal Policy Optimization (PPO) et Direction Preference Optimization (DPO), selon la métrique du taux de victoire GPT4. Le code de ce travail est disponible à l'adresse https://github.com/Cornell-RL/drpo.

English

Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative models, which has produced impressive models such as GPT-4 and Claude3 Opus. This framework often consists of two steps: learning a reward model from an offline preference dataset followed by running online RL to optimize the learned reward model. In this work, leveraging the idea of reset, we propose a new RLHF algorithm with provable guarantees. Motivated by the fact that offline preference dataset provides informative states (i.e., data that is preferred by the labelers), our new algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing offline preference dataset into the online policy training procedure via dataset reset: it directly resets the policy optimizer to the states in the offline dataset, instead of always starting from the initial state distribution. In theory, we show that DR-PO learns to perform at least as good as any policy that is covered by the offline dataset under general function approximation with finite sample complexity. In experiments, we demonstrate that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH) dataset, the generation from DR-PO is better than that from Proximal Policy Optimization (PPO) and Direction Preference Optimization (DPO), under the metric of GPT4 win-rate. Code for this work can be found at https://github.com/Cornell-RL/drpo.

Politique de Réinitialisation des Données pour l'Optimisation de l'Apprentissage par Renforcement avec Feedback Humain

Dataset Reset Policy Optimization for RLHF

papers.abstract

Support