Оптимизация политики сброса набора данных для RLHF

Аннотация

Обучение с подкреплением (Reinforcement Learning, RL) на основе обратной связи от человека по предпочтениям является популярным подходом для настройки генеративных моделей, что привело к созданию впечатляющих моделей, таких как GPT-4 и Claude3 Opus. Этот фреймворк часто состоит из двух этапов: обучение модели вознаграждения на основе офлайн набора предпочтений, за которым следует онлайн обучение с подкреплением для оптимизации изученной модели вознаграждения. В данной работе, используя идею сброса, мы предлагаем новый алгоритм RLHF с доказанными гарантиями. Вдохновленные тем, что офлайн набор предпочтений предоставляет информативные состояния (т.е. данные, предпочитаемые метками), наш новый алгоритм, Оптимизация политики сброса набора данных (Dataset Reset Policy Optimization, DR-PO), интегрирует существующий офлайн набор предпочтений в процедуру онлайн обучения политики через сброс набора данных: он напрямую сбрасывает оптимизатор политики к состояниям в офлайн наборе данных, вместо того чтобы всегда начинать с начального распределения состояний. Теоретически мы показываем, что DR-PO учится выполнять по крайней мере так же хорошо, как любая политика, охваченная офлайн набором данных, при обобщенной аппроксимации функции с конечной сложностью выборки. В экспериментах мы демонстрируем, что как в случае суммирования TL;DR, так и в случае набора данных Anthropic Helpful Harmful (HH), генерация от DR-PO лучше, чем от оптимизации ближней политики (Proximal Policy Optimization, PPO) и оптимизации предпочтений направления (Direction Preference Optimization, DPO), по метрике победного процента GPT4. Код для этой работы можно найти по ссылке https://github.com/Cornell-RL/drpo.

English

Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative models, which has produced impressive models such as GPT-4 and Claude3 Opus. This framework often consists of two steps: learning a reward model from an offline preference dataset followed by running online RL to optimize the learned reward model. In this work, leveraging the idea of reset, we propose a new RLHF algorithm with provable guarantees. Motivated by the fact that offline preference dataset provides informative states (i.e., data that is preferred by the labelers), our new algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing offline preference dataset into the online policy training procedure via dataset reset: it directly resets the policy optimizer to the states in the offline dataset, instead of always starting from the initial state distribution. In theory, we show that DR-PO learns to perform at least as good as any policy that is covered by the offline dataset under general function approximation with finite sample complexity. In experiments, we demonstrate that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH) dataset, the generation from DR-PO is better than that from Proximal Policy Optimization (PPO) and Direction Preference Optimization (DPO), under the metric of GPT4 win-rate. Code for this work can be found at https://github.com/Cornell-RL/drpo.

Оптимизация политики сброса набора данных для RLHF

Dataset Reset Policy Optimization for RLHF

Аннотация

Support