Waarde-Gestimuleerde Voorkeursoptimalisatie: Een Geïntegreerde Aanpak voor Online en Offline RLHF
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF
May 29, 2024
Auteurs: Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai
cs.AI
Samenvatting
Reinforcement learning met menselijke feedback (RLHF) heeft veelbelovende resultaten getoond in het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren. Afhankelijk van de beschikbaarheid van voorkeursdata zijn zowel online als offline RLHF actieve onderzoeksgebieden. Een belangrijk knelpunt is het begrijpen van hoe onzekerheidschatting kan worden geïntegreerd in de beloningsfunctie die wordt geleerd uit de voorkeursdata voor RLHF, ongeacht hoe de voorkeursdata wordt verzameld. Hoewel de principes van optimisme of pessimisme onder onzekerheid goed zijn gevestigd in standaard reinforcement learning (RL), is een praktisch uitvoerbare en theoretisch onderbouwde vorm die geschikt is voor grote taalmodellen nog niet beschikbaar, aangezien standaardtechnieken voor het construeren van betrouwbaarheidsintervallen onhandelbaar worden onder willekeurige beleidsparameterisaties.
In dit artikel introduceren we een geïntegreerde aanpak voor online en offline RLHF -- value-incentivized preference optimization (VPO) -- die de maximum-likelihood schatting van de beloningsfunctie regulariseert met de corresponderende waardefunctie, gemoduleerd door een teken om aan te geven of optimisme of pessimisme wordt gekozen. VPO optimaliseert ook direct het beleid met impliciete beloningsmodellering, en deelt daarom een eenvoudiger RLHF-pijplijn die vergelijkbaar is met directe voorkeursoptimalisatie. Theoretische garanties voor VPO worden geboden voor zowel online als offline settings, die overeenkomen met de snelheden van hun standaard RL-tegenhangers. Bovendien valideren experimenten op tekstsamenvatting en dialoog de praktische bruikbaarheid en effectiviteit van VPO.
English
Reinforcement learning from human feedback (RLHF) has demonstrated great
promise in aligning large language models (LLMs) with human preference.
Depending on the availability of preference data, both online and offline RLHF
are active areas of investigation. A key bottleneck is understanding how to
incorporate uncertainty estimation in the reward function learned from the
preference data for RLHF, regardless of how the preference data is collected.
While the principles of optimism or pessimism under uncertainty are
well-established in standard reinforcement learning (RL), a
practically-implementable and theoretically-grounded form amenable to large
language models is not yet available, as standard techniques for constructing
confidence intervals become intractable under arbitrary policy
parameterizations.
In this paper, we introduce a unified approach to online and offline RLHF --
value-incentivized preference optimization (VPO) -- which regularizes the
maximum-likelihood estimate of the reward function with the corresponding value
function, modulated by a sign to indicate whether the optimism or
pessimism is chosen. VPO also directly optimizes the policy with implicit
reward modeling, and therefore shares a simpler RLHF pipeline similar to direct
preference optimization. Theoretical guarantees of VPO are provided for both
online and offline settings, matching the rates of their standard RL
counterparts. Moreover, experiments on text summarization and dialog verify the
practicality and effectiveness of VPO.