Política de Optimización de Reinicio de Conjuntos de Datos para Aprendizaje por Refuerzo con Retroalimentación Humana

Resumen

El Aprendizaje por Refuerzo (RL) basado en preferencias humanas es un paradigma popular para el ajuste fino de modelos generativos, que ha producido modelos impresionantes como GPT-4 y Claude3 Opus. Este marco de trabajo suele consistir en dos pasos: aprender un modelo de recompensa a partir de un conjunto de datos de preferencias offline, seguido de la ejecución de RL en línea para optimizar el modelo de recompensa aprendido. En este trabajo, aprovechando la idea del reinicio, proponemos un nuevo algoritmo RLHF con garantías demostrables. Motivados por el hecho de que el conjunto de datos de preferencias offline proporciona estados informativos (es decir, datos preferidos por los etiquetadores), nuestro nuevo algoritmo, Optimización de Políticas con Reinicio de Conjunto de Datos (DR-PO), integra el conjunto de datos de preferencias offline existente en el procedimiento de entrenamiento de políticas en línea mediante el reinicio del conjunto de datos: reinicia directamente el optimizador de políticas a los estados en el conjunto de datos offline, en lugar de comenzar siempre desde la distribución de estados inicial. Teóricamente, demostramos que DR-PO aprende a desempeñarse al menos tan bien como cualquier política cubierta por el conjunto de datos offline bajo aproximación de funciones generales con complejidad de muestra finita. En los experimentos, demostramos que tanto en la tarea de resumen TL;DR como en el conjunto de datos Anthropic Helpful Harmful (HH), la generación de DR-PO es mejor que la de Optimización de Políticas Proximal (PPO) y la Optimización de Preferencias Direccionales (DPO), según la métrica de tasa de victoria de GPT4. El código de este trabajo se puede encontrar en https://github.com/Cornell-RL/drpo.

English

Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative models, which has produced impressive models such as GPT-4 and Claude3 Opus. This framework often consists of two steps: learning a reward model from an offline preference dataset followed by running online RL to optimize the learned reward model. In this work, leveraging the idea of reset, we propose a new RLHF algorithm with provable guarantees. Motivated by the fact that offline preference dataset provides informative states (i.e., data that is preferred by the labelers), our new algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing offline preference dataset into the online policy training procedure via dataset reset: it directly resets the policy optimizer to the states in the offline dataset, instead of always starting from the initial state distribution. In theory, we show that DR-PO learns to perform at least as good as any policy that is covered by the offline dataset under general function approximation with finite sample complexity. In experiments, we demonstrate that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH) dataset, the generation from DR-PO is better than that from Proximal Policy Optimization (PPO) and Direction Preference Optimization (DPO), under the metric of GPT4 win-rate. Code for this work can be found at https://github.com/Cornell-RL/drpo.

Política de Optimización de Reinicio de Conjuntos de Datos para Aprendizaje por Refuerzo con Retroalimentación Humana

Dataset Reset Policy Optimization for RLHF

Resumen

Support