Optimización de Preferencias con Incentivos de Valor: Un Enfoque Unificado para RLHF en Línea y Fuera de Línea
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF
May 29, 2024
Autores: Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai
cs.AI
Resumen
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) ha demostrado un gran potencial para alinear modelos de lenguaje de gran escala (LLMs) con las preferencias humanas. Dependiendo de la disponibilidad de datos de preferencia, tanto el RLHF en línea como fuera de línea son áreas activas de investigación. Un cuello de botella clave es comprender cómo incorporar la estimación de incertidumbre en la función de recompensa aprendida a partir de los datos de preferencia para RLHF, independientemente de cómo se recopilen dichos datos. Si bien los principios de optimismo o pesimismo bajo incertidumbre están bien establecidos en el aprendizaje por refuerzo estándar (RL), aún no está disponible una forma práctica y teóricamente fundamentada que sea adecuada para modelos de lenguaje de gran escala, ya que las técnicas estándar para construir intervalos de confianza se vuelven intratables bajo parametrizaciones arbitrarias de políticas.
En este artículo, presentamos un enfoque unificado para RLHF en línea y fuera de línea: la optimización de preferencias incentivadas por valor (VPO, por sus siglas en inglés), que regulariza la estimación de máxima verosimilitud de la función de recompensa con la función de valor correspondiente, modulada por un signo que indica si se elige el optimismo o el pesimismo. VPO también optimiza directamente la política con modelado implícito de recompensas y, por lo tanto, comparte una canalización de RLHF más simple, similar a la optimización directa de preferencias. Se proporcionan garantías teóricas para VPO en ambos entornos, en línea y fuera de línea, que coinciden con las tasas de sus contrapartes estándar de RL. Además, los experimentos en resumen de texto y diálogo verifican la practicidad y efectividad de VPO.
English
Reinforcement learning from human feedback (RLHF) has demonstrated great
promise in aligning large language models (LLMs) with human preference.
Depending on the availability of preference data, both online and offline RLHF
are active areas of investigation. A key bottleneck is understanding how to
incorporate uncertainty estimation in the reward function learned from the
preference data for RLHF, regardless of how the preference data is collected.
While the principles of optimism or pessimism under uncertainty are
well-established in standard reinforcement learning (RL), a
practically-implementable and theoretically-grounded form amenable to large
language models is not yet available, as standard techniques for constructing
confidence intervals become intractable under arbitrary policy
parameterizations.
In this paper, we introduce a unified approach to online and offline RLHF --
value-incentivized preference optimization (VPO) -- which regularizes the
maximum-likelihood estimate of the reward function with the corresponding value
function, modulated by a sign to indicate whether the optimism or
pessimism is chosen. VPO also directly optimizes the policy with implicit
reward modeling, and therefore shares a simpler RLHF pipeline similar to direct
preference optimization. Theoretical guarantees of VPO are provided for both
online and offline settings, matching the rates of their standard RL
counterparts. Moreover, experiments on text summarization and dialog verify the
practicality and effectiveness of VPO.Summary
AI-Generated Summary