Оптимизация политики сброса набора данных для RLHF
Dataset Reset Policy Optimization for RLHF
April 12, 2024
Авторы: Jonathan D. Chang, Wenhao Shan, Owen Oertell, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun
cs.AI
Аннотация
Обучение с подкреплением (Reinforcement Learning, RL) на основе обратной связи от человека по предпочтениям является популярным подходом для настройки генеративных моделей, что привело к созданию впечатляющих моделей, таких как GPT-4 и Claude3 Opus. Этот фреймворк часто состоит из двух этапов: обучение модели вознаграждения на основе офлайн набора предпочтений, за которым следует онлайн обучение с подкреплением для оптимизации изученной модели вознаграждения. В данной работе, используя идею сброса, мы предлагаем новый алгоритм RLHF с доказанными гарантиями. Вдохновленные тем, что офлайн набор предпочтений предоставляет информативные состояния (т.е. данные, предпочитаемые метками), наш новый алгоритм, Оптимизация политики сброса набора данных (Dataset Reset Policy Optimization, DR-PO), интегрирует существующий офлайн набор предпочтений в процедуру онлайн обучения политики через сброс набора данных: он напрямую сбрасывает оптимизатор политики к состояниям в офлайн наборе данных, вместо того чтобы всегда начинать с начального распределения состояний. Теоретически мы показываем, что DR-PO учится выполнять по крайней мере так же хорошо, как любая политика, охваченная офлайн набором данных, при обобщенной аппроксимации функции с конечной сложностью выборки. В экспериментах мы демонстрируем, что как в случае суммирования TL;DR, так и в случае набора данных Anthropic Helpful Harmful (HH), генерация от DR-PO лучше, чем от оптимизации ближней политики (Proximal Policy Optimization, PPO) и оптимизации предпочтений направления (Direction Preference Optimization, DPO), по метрике победного процента GPT4. Код для этой работы можно найти по ссылке https://github.com/Cornell-RL/drpo.
English
Reinforcement Learning (RL) from Human Preference-based feedback is a popular
paradigm for fine-tuning generative models, which has produced impressive
models such as GPT-4 and Claude3 Opus. This framework often consists of two
steps: learning a reward model from an offline preference dataset followed by
running online RL to optimize the learned reward model. In this work,
leveraging the idea of reset, we propose a new RLHF algorithm with provable
guarantees. Motivated by the fact that offline preference dataset provides
informative states (i.e., data that is preferred by the labelers), our new
algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing
offline preference dataset into the online policy training procedure via
dataset reset: it directly resets the policy optimizer to the states in the
offline dataset, instead of always starting from the initial state
distribution. In theory, we show that DR-PO learns to perform at least as good
as any policy that is covered by the offline dataset under general function
approximation with finite sample complexity. In experiments, we demonstrate
that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH)
dataset, the generation from DR-PO is better than that from Proximal Policy
Optimization (PPO) and Direction Preference Optimization (DPO), under the
metric of GPT4 win-rate. Code for this work can be found at
https://github.com/Cornell-RL/drpo.Summary
AI-Generated Summary