Datensatz-Reset-Politik-Optimierung für RLHF

papers.abstract

Reinforcement Learning (RL) aus menschlichem präferenzbasiertem Feedback ist ein beliebtes Paradigma zur Feinabstimmung generativer Modelle, das beeindruckende Modelle wie GPT-4 und Claude3 Opus hervorgebracht hat. Dieser Rahmen besteht häufig aus zwei Schritten: dem Erlernen eines Belohnungsmodells aus einem Offline-Präferenzdatensatz, gefolgt von der Durchführung von Online-RL zur Optimierung des erlernten Belohnungsmodells. In dieser Arbeit schlagen wir unter Nutzung der Idee des Resets einen neuen RLHF-Algorithmus mit nachweisbaren Garantien vor. Angespornt durch die Tatsache, dass der Offline-Präferenzdatensatz informative Zustände liefert (d. h. Daten, die von den Labelern bevorzugt werden), integriert unser neuer Algorithmus, Dataset Reset Policy Optimization (DR-PO), den bestehenden Offline-Präferenzdatensatz in das Online-Policy-Trainingsverfahren über einen Datensatzreset: Er setzt den Policy-Optimierer direkt auf die Zustände im Offline-Datensatz zurück, anstatt immer von der anfänglichen Zustandsverteilung aus zu starten. Theoretisch zeigen wir, dass DR-PO lernt, mindestens so gut zu performen wie jede Richtlinie, die durch den Offline-Datensatz unter allgemeiner Funktionsapproximation mit endlicher Stichprobenkomplexität abgedeckt ist. In Experimenten zeigen wir, dass sowohl bei der TL;DR-Zusammenfassung als auch beim Anthropic Helpful Harmful (HH)-Datensatz die Generierung von DR-PO unter der Metrik des GPT4-Gewinnanteils besser ist als die von Proximal Policy Optimization (PPO) und Direction Preference Optimization (DPO). Der Code für diese Arbeit ist unter https://github.com/Cornell-RL/drpo verfügbar.

English

Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative models, which has produced impressive models such as GPT-4 and Claude3 Opus. This framework often consists of two steps: learning a reward model from an offline preference dataset followed by running online RL to optimize the learned reward model. In this work, leveraging the idea of reset, we propose a new RLHF algorithm with provable guarantees. Motivated by the fact that offline preference dataset provides informative states (i.e., data that is preferred by the labelers), our new algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing offline preference dataset into the online policy training procedure via dataset reset: it directly resets the policy optimizer to the states in the offline dataset, instead of always starting from the initial state distribution. In theory, we show that DR-PO learns to perform at least as good as any policy that is covered by the offline dataset under general function approximation with finite sample complexity. In experiments, we demonstrate that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH) dataset, the generation from DR-PO is better than that from Proximal Policy Optimization (PPO) and Direction Preference Optimization (DPO), under the metric of GPT4 win-rate. Code for this work can be found at https://github.com/Cornell-RL/drpo.

Datensatz-Reset-Politik-Optimierung für RLHF

Dataset Reset Policy Optimization for RLHF

papers.abstract

Support