Otimização de Preferências com Incentivo de Valor: Uma Abordagem Unificada para RLHF Online e Offline
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF
May 29, 2024
Autores: Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai
cs.AI
Resumo
O aprendizado por reforço com feedback humano (RLHF, na sigla em inglês) tem demonstrado grande potencial no alinhamento de grandes modelos de linguagem (LLMs, na sigla em inglês) com as preferências humanas. Dependendo da disponibilidade de dados de preferência, tanto o RLHF online quanto o offline são áreas ativas de investigação. Um gargalo importante é entender como incorporar a estimativa de incerteza na função de recompensa aprendida a partir dos dados de preferência para o RLHF, independentemente de como esses dados são coletados. Embora os princípios de otimismo ou pessimismo sob incerteza sejam bem estabelecidos no aprendizado por reforço (RL) padrão, uma forma praticamente implementável e teoricamente fundamentada, adequada para grandes modelos de linguagem, ainda não está disponível, pois as técnicas padrão para construir intervalos de confiança tornam-se intratáveis sob parametrizações arbitrárias de políticas.
Neste artigo, introduzimos uma abordagem unificada para RLHF online e offline -- a otimização de preferências com incentivo de valor (VPO, na sigla em inglês) -- que regulariza a estimativa de máxima verossimilhança da função de recompensa com a função de valor correspondente, modulada por um sinal para indicar se o otimismo ou o pessimismo é escolhido. A VPO também otimiza diretamente a política com modelagem implícita de recompensa e, portanto, compartilha um pipeline de RLHF mais simples, semelhante à otimização direta de preferências. Garantias teóricas da VPO são fornecidas para ambos os cenários, online e offline, correspondendo às taxas de suas contrapartes de RL padrão. Além disso, experimentos em sumarização de texto e diálogo verificam a praticidade e eficácia da VPO.
English
Reinforcement learning from human feedback (RLHF) has demonstrated great
promise in aligning large language models (LLMs) with human preference.
Depending on the availability of preference data, both online and offline RLHF
are active areas of investigation. A key bottleneck is understanding how to
incorporate uncertainty estimation in the reward function learned from the
preference data for RLHF, regardless of how the preference data is collected.
While the principles of optimism or pessimism under uncertainty are
well-established in standard reinforcement learning (RL), a
practically-implementable and theoretically-grounded form amenable to large
language models is not yet available, as standard techniques for constructing
confidence intervals become intractable under arbitrary policy
parameterizations.
In this paper, we introduce a unified approach to online and offline RLHF --
value-incentivized preference optimization (VPO) -- which regularizes the
maximum-likelihood estimate of the reward function with the corresponding value
function, modulated by a sign to indicate whether the optimism or
pessimism is chosen. VPO also directly optimizes the policy with implicit
reward modeling, and therefore shares a simpler RLHF pipeline similar to direct
preference optimization. Theoretical guarantees of VPO are provided for both
online and offline settings, matching the rates of their standard RL
counterparts. Moreover, experiments on text summarization and dialog verify the
practicality and effectiveness of VPO.