Ottimizzazione delle Preferenze con Incentivi al Valore: Un Approccio Unificato per RLHF Online e Offline
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF
May 29, 2024
Autori: Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai
cs.AI
Abstract
L'apprendimento per rinforzo basato sul feedback umano (RLHF) ha dimostrato un grande potenziale nell'allineare i grandi modelli linguistici (LLM) alle preferenze umane. A seconda della disponibilità di dati sulle preferenze, sia l'RLHF online che offline sono aree di ricerca attive. Un collo di bottiglia chiave è comprendere come incorporare la stima dell'incertezza nella funzione di ricompensa appresa dai dati sulle preferenze per l'RLHF, indipendentemente da come tali dati vengono raccolti. Sebbene i principi di ottimismo o pessimismo in condizioni di incertezza siano ben consolidati nell'apprendimento per rinforzo standard (RL), una forma praticamente implementabile e teoricamente solida adatta ai grandi modelli linguistici non è ancora disponibile, poiché le tecniche standard per la costruzione di intervalli di confidenza diventano intrattabili con parametrizzazioni arbitrarie delle politiche.
In questo articolo, introduciamo un approccio unificato per l'RLHF online e offline: l'ottimizzazione delle preferenze incentivata dal valore (VPO) — che regolarizza la stima di massima verosimiglianza della funzione di ricompensa con la corrispondente funzione di valore, modulata da un segno per indicare se viene scelto l'ottimismo o il pessimismo. VPO ottimizza direttamente la politica con una modellazione implicita della ricompensa, condividendo quindi una pipeline RLHF più semplice, simile all'ottimizzazione diretta delle preferenze. Vengono fornite garanzie teoriche per VPO sia in contesti online che offline, corrispondenti ai tassi delle loro controparti RL standard. Inoltre, esperimenti su riassunto di testo e dialogo verificano la praticità e l'efficacia di VPO.
English
Reinforcement learning from human feedback (RLHF) has demonstrated great
promise in aligning large language models (LLMs) with human preference.
Depending on the availability of preference data, both online and offline RLHF
are active areas of investigation. A key bottleneck is understanding how to
incorporate uncertainty estimation in the reward function learned from the
preference data for RLHF, regardless of how the preference data is collected.
While the principles of optimism or pessimism under uncertainty are
well-established in standard reinforcement learning (RL), a
practically-implementable and theoretically-grounded form amenable to large
language models is not yet available, as standard techniques for constructing
confidence intervals become intractable under arbitrary policy
parameterizations.
In this paper, we introduce a unified approach to online and offline RLHF --
value-incentivized preference optimization (VPO) -- which regularizes the
maximum-likelihood estimate of the reward function with the corresponding value
function, modulated by a sign to indicate whether the optimism or
pessimism is chosen. VPO also directly optimizes the policy with implicit
reward modeling, and therefore shares a simpler RLHF pipeline similar to direct
preference optimization. Theoretical guarantees of VPO are provided for both
online and offline settings, matching the rates of their standard RL
counterparts. Moreover, experiments on text summarization and dialog verify the
practicality and effectiveness of VPO.