Política de Reinicialização de Conjunto de Dados para Otimização de Aprendizado por Reforço com Feedback Humano
Dataset Reset Policy Optimization for RLHF
April 12, 2024
Autores: Jonathan D. Chang, Wenhao Shan, Owen Oertell, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun
cs.AI
Resumo
O Aprendizado por Reforço (RL) baseado em feedback de preferências humanas é um paradigma popular para o ajuste fino de modelos generativos, que produziu modelos impressionantes como o GPT-4 e o Claude3 Opus. Esse framework geralmente consiste em duas etapas: aprender um modelo de recompensa a partir de um conjunto de dados de preferências offline, seguido pela execução de RL online para otimizar o modelo de recompensa aprendido. Neste trabalho, aproveitando a ideia de reset, propomos um novo algoritmo RLHF com garantias comprováveis. Motivados pelo fato de que o conjunto de dados de preferências offline fornece estados informativos (ou seja, dados que são preferidos pelos avaliadores), nosso novo algoritmo, Dataset Reset Policy Optimization (DR-PO), integra o conjunto de dados de preferências offline existente no procedimento de treinamento de política online por meio de reset de dataset: ele redefine diretamente o otimizador de política para os estados no conjunto de dados offline, em vez de sempre começar a partir da distribuição de estado inicial. Em teoria, mostramos que o DR-PO aprende a performar pelo menos tão bem quanto qualquer política que é coberta pelo conjunto de dados offline sob aproximação de função geral com complexidade de amostra finita. Nos experimentos, demonstramos que, tanto no resumo TL;DR quanto no conjunto de dados Anthropic Helpful Harmful (HH), a geração do DR-PO é melhor do que a do Proximal Policy Optimization (PPO) e do Direction Preference Optimization (DPO), sob a métrica de taxa de vitória do GPT4. O código deste trabalho pode ser encontrado em https://github.com/Cornell-RL/drpo.
English
Reinforcement Learning (RL) from Human Preference-based feedback is a popular
paradigm for fine-tuning generative models, which has produced impressive
models such as GPT-4 and Claude3 Opus. This framework often consists of two
steps: learning a reward model from an offline preference dataset followed by
running online RL to optimize the learned reward model. In this work,
leveraging the idea of reset, we propose a new RLHF algorithm with provable
guarantees. Motivated by the fact that offline preference dataset provides
informative states (i.e., data that is preferred by the labelers), our new
algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing
offline preference dataset into the online policy training procedure via
dataset reset: it directly resets the policy optimizer to the states in the
offline dataset, instead of always starting from the initial state
distribution. In theory, we show that DR-PO learns to perform at least as good
as any policy that is covered by the offline dataset under general function
approximation with finite sample complexity. In experiments, we demonstrate
that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH)
dataset, the generation from DR-PO is better than that from Proximal Policy
Optimization (PPO) and Direction Preference Optimization (DPO), under the
metric of GPT4 win-rate. Code for this work can be found at
https://github.com/Cornell-RL/drpo.