Política de Optimización de Reinicio de Conjuntos de Datos para Aprendizaje por Refuerzo con Retroalimentación Humana
Dataset Reset Policy Optimization for RLHF
April 12, 2024
Autores: Jonathan D. Chang, Wenhao Shan, Owen Oertell, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun
cs.AI
Resumen
El Aprendizaje por Refuerzo (RL) basado en preferencias humanas es un paradigma popular para el ajuste fino de modelos generativos, que ha producido modelos impresionantes como GPT-4 y Claude3 Opus. Este marco de trabajo suele consistir en dos pasos: aprender un modelo de recompensa a partir de un conjunto de datos de preferencias offline, seguido de la ejecución de RL en línea para optimizar el modelo de recompensa aprendido. En este trabajo, aprovechando la idea del reinicio, proponemos un nuevo algoritmo RLHF con garantías demostrables. Motivados por el hecho de que el conjunto de datos de preferencias offline proporciona estados informativos (es decir, datos preferidos por los etiquetadores), nuestro nuevo algoritmo, Optimización de Políticas con Reinicio de Conjunto de Datos (DR-PO), integra el conjunto de datos de preferencias offline existente en el procedimiento de entrenamiento de políticas en línea mediante el reinicio del conjunto de datos: reinicia directamente el optimizador de políticas a los estados en el conjunto de datos offline, en lugar de comenzar siempre desde la distribución de estados inicial. Teóricamente, demostramos que DR-PO aprende a desempeñarse al menos tan bien como cualquier política cubierta por el conjunto de datos offline bajo aproximación de funciones generales con complejidad de muestra finita. En los experimentos, demostramos que tanto en la tarea de resumen TL;DR como en el conjunto de datos Anthropic Helpful Harmful (HH), la generación de DR-PO es mejor que la de Optimización de Políticas Proximal (PPO) y la Optimización de Preferencias Direccionales (DPO), según la métrica de tasa de victoria de GPT4. El código de este trabajo se puede encontrar en https://github.com/Cornell-RL/drpo.
English
Reinforcement Learning (RL) from Human Preference-based feedback is a popular
paradigm for fine-tuning generative models, which has produced impressive
models such as GPT-4 and Claude3 Opus. This framework often consists of two
steps: learning a reward model from an offline preference dataset followed by
running online RL to optimize the learned reward model. In this work,
leveraging the idea of reset, we propose a new RLHF algorithm with provable
guarantees. Motivated by the fact that offline preference dataset provides
informative states (i.e., data that is preferred by the labelers), our new
algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing
offline preference dataset into the online policy training procedure via
dataset reset: it directly resets the policy optimizer to the states in the
offline dataset, instead of always starting from the initial state
distribution. In theory, we show that DR-PO learns to perform at least as good
as any policy that is covered by the offline dataset under general function
approximation with finite sample complexity. In experiments, we demonstrate
that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH)
dataset, the generation from DR-PO is better than that from Proximal Policy
Optimization (PPO) and Direction Preference Optimization (DPO), under the
metric of GPT4 win-rate. Code for this work can be found at
https://github.com/Cornell-RL/drpo.Summary
AI-Generated Summary