Wertanreizende Präferenzoptimierung: Ein einheitlicher Ansatz für Online- und Offline-RLHF
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF
May 29, 2024
Autoren: Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai
cs.AI
Zusammenfassung
Die Verstärkungslernmethode mit menschlichem Feedback (RLHF) hat großes Potenzial gezeigt, um große Sprachmodelle (LLMs) mit menschlichen Präferenzen in Einklang zu bringen. Abhängig von der Verfügbarkeit von Präferenzdaten sind sowohl Online- als auch Offline-RLHF aktive Forschungsbereiche. Ein zentraler Engpass besteht darin, zu verstehen, wie man die Unsicherheitsschätzung in die aus den Präferenzdaten für RLHF gelernte Belohnungsfunktion integrieren kann, unabhängig davon, wie die Präferenzdaten gesammelt werden. Während die Prinzipien von Optimismus oder Pessimismus unter Unsicherheit im herkömmlichen Verstärkungslernen (RL) gut etabliert sind, steht eine praktisch umsetzbare und theoretisch fundierte Form, die für große Sprachmodelle geeignet ist, noch nicht zur Verfügung, da herkömmliche Techniken zur Konstruktion von Vertrauensintervallen unter beliebigen Richtlinienparametrisierungen unpraktikabel werden.
In diesem Artikel stellen wir einen vereinheitlichten Ansatz für Online- und Offline-RLHF vor - die wertanreizende Präferenzoptimierung (VPO) -, der die Maximum-Likelihood-Schätzung der Belohnungsfunktion mit der entsprechenden Wertefunktion reguliert, moduliert durch ein Vorzeichen, um anzuzeigen, ob Optimismus oder Pessimismus gewählt wird. VPO optimiert auch direkt die Richtlinie mit impliziter Belohnungsmodellierung und teilt daher eine einfachere RLHF-Pipeline, ähnlich der direkten Präferenzoptimierung. Theoretische Garantien von VPO werden sowohl für Online- als auch für Offline-Einstellungen bereitgestellt und entsprechen den Raten ihrer herkömmlichen RL-Gegenstücke. Darüber hinaus bestätigen Experimente zur Textzusammenfassung und zum Dialog die Praktikabilität und Wirksamkeit von VPO.
English
Reinforcement learning from human feedback (RLHF) has demonstrated great
promise in aligning large language models (LLMs) with human preference.
Depending on the availability of preference data, both online and offline RLHF
are active areas of investigation. A key bottleneck is understanding how to
incorporate uncertainty estimation in the reward function learned from the
preference data for RLHF, regardless of how the preference data is collected.
While the principles of optimism or pessimism under uncertainty are
well-established in standard reinforcement learning (RL), a
practically-implementable and theoretically-grounded form amenable to large
language models is not yet available, as standard techniques for constructing
confidence intervals become intractable under arbitrary policy
parameterizations.
In this paper, we introduce a unified approach to online and offline RLHF --
value-incentivized preference optimization (VPO) -- which regularizes the
maximum-likelihood estimate of the reward function with the corresponding value
function, modulated by a sign to indicate whether the optimism or
pessimism is chosen. VPO also directly optimizes the policy with implicit
reward modeling, and therefore shares a simpler RLHF pipeline similar to direct
preference optimization. Theoretical guarantees of VPO are provided for both
online and offline settings, matching the rates of their standard RL
counterparts. Moreover, experiments on text summarization and dialog verify the
practicality and effectiveness of VPO.Summary
AI-Generated Summary