Datensatz-Reset-Politik-Optimierung für RLHF
Dataset Reset Policy Optimization for RLHF
April 12, 2024
Autoren: Jonathan D. Chang, Wenhao Shan, Owen Oertell, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun
cs.AI
Zusammenfassung
Reinforcement Learning (RL) aus menschlichem präferenzbasiertem Feedback ist ein beliebtes Paradigma zur Feinabstimmung generativer Modelle, das beeindruckende Modelle wie GPT-4 und Claude3 Opus hervorgebracht hat. Dieser Rahmen besteht häufig aus zwei Schritten: dem Erlernen eines Belohnungsmodells aus einem Offline-Präferenzdatensatz, gefolgt von der Durchführung von Online-RL zur Optimierung des erlernten Belohnungsmodells. In dieser Arbeit schlagen wir unter Nutzung der Idee des Resets einen neuen RLHF-Algorithmus mit nachweisbaren Garantien vor. Angespornt durch die Tatsache, dass der Offline-Präferenzdatensatz informative Zustände liefert (d. h. Daten, die von den Labelern bevorzugt werden), integriert unser neuer Algorithmus, Dataset Reset Policy Optimization (DR-PO), den bestehenden Offline-Präferenzdatensatz in das Online-Policy-Trainingsverfahren über einen Datensatzreset: Er setzt den Policy-Optimierer direkt auf die Zustände im Offline-Datensatz zurück, anstatt immer von der anfänglichen Zustandsverteilung aus zu starten. Theoretisch zeigen wir, dass DR-PO lernt, mindestens so gut zu performen wie jede Richtlinie, die durch den Offline-Datensatz unter allgemeiner Funktionsapproximation mit endlicher Stichprobenkomplexität abgedeckt ist. In Experimenten zeigen wir, dass sowohl bei der TL;DR-Zusammenfassung als auch beim Anthropic Helpful Harmful (HH)-Datensatz die Generierung von DR-PO unter der Metrik des GPT4-Gewinnanteils besser ist als die von Proximal Policy Optimization (PPO) und Direction Preference Optimization (DPO). Der Code für diese Arbeit ist unter https://github.com/Cornell-RL/drpo verfügbar.
English
Reinforcement Learning (RL) from Human Preference-based feedback is a popular
paradigm for fine-tuning generative models, which has produced impressive
models such as GPT-4 and Claude3 Opus. This framework often consists of two
steps: learning a reward model from an offline preference dataset followed by
running online RL to optimize the learned reward model. In this work,
leveraging the idea of reset, we propose a new RLHF algorithm with provable
guarantees. Motivated by the fact that offline preference dataset provides
informative states (i.e., data that is preferred by the labelers), our new
algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing
offline preference dataset into the online policy training procedure via
dataset reset: it directly resets the policy optimizer to the states in the
offline dataset, instead of always starting from the initial state
distribution. In theory, we show that DR-PO learns to perform at least as good
as any policy that is covered by the offline dataset under general function
approximation with finite sample complexity. In experiments, we demonstrate
that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH)
dataset, the generation from DR-PO is better than that from Proximal Policy
Optimization (PPO) and Direction Preference Optimization (DPO), under the
metric of GPT4 win-rate. Code for this work can be found at
https://github.com/Cornell-RL/drpo.Summary
AI-Generated Summary