Optimisation des Préférences par Incitation à la Valeur : Une Approche Unifiée pour le RLHF en Ligne et Hors Ligne
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF
May 29, 2024
Auteurs: Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai
cs.AI
Résumé
L'apprentissage par renforcement à partir de retours humains (RLHF) a démontré un grand potentiel pour aligner les grands modèles de langage (LLMs) avec les préférences humaines. Selon la disponibilité des données de préférence, les approches en ligne et hors ligne du RLHF sont des domaines de recherche actifs. Un goulot d'étranglement majeur consiste à comprendre comment intégrer l'estimation de l'incertitude dans la fonction de récompense apprise à partir des données de préférence pour le RLHF, quelle que soit la manière dont ces données sont collectées. Bien que les principes d'optimisme ou de pessimisme face à l'incertitude soient bien établis dans l'apprentissage par renforcement standard (RL), une forme praticable et théoriquement fondée adaptée aux grands modèles de langage n'est pas encore disponible, car les techniques standard pour construire des intervalles de confiance deviennent intraitables avec des paramétrisations arbitraires de la politique.
Dans cet article, nous introduisons une approche unifiée pour le RLHF en ligne et hors ligne -- l'optimisation des préférences incitées par la valeur (VPO) -- qui régularise l'estimation du maximum de vraisemblance de la fonction de récompense avec la fonction de valeur correspondante, modulée par un signe indiquant si l'optimisme ou le pessimisme est choisi. VPO optimise également directement la politique avec une modélisation implicite de la récompense, et partage donc un pipeline RLHF plus simple, similaire à l'optimisation directe des préférences. Des garanties théoriques de VPO sont fournies pour les contextes en ligne et hors ligne, correspondant aux taux de leurs homologues RL standard. De plus, des expériences sur la synthèse de texte et les dialogues vérifient la praticabilité et l'efficacité de VPO.
English
Reinforcement learning from human feedback (RLHF) has demonstrated great
promise in aligning large language models (LLMs) with human preference.
Depending on the availability of preference data, both online and offline RLHF
are active areas of investigation. A key bottleneck is understanding how to
incorporate uncertainty estimation in the reward function learned from the
preference data for RLHF, regardless of how the preference data is collected.
While the principles of optimism or pessimism under uncertainty are
well-established in standard reinforcement learning (RL), a
practically-implementable and theoretically-grounded form amenable to large
language models is not yet available, as standard techniques for constructing
confidence intervals become intractable under arbitrary policy
parameterizations.
In this paper, we introduce a unified approach to online and offline RLHF --
value-incentivized preference optimization (VPO) -- which regularizes the
maximum-likelihood estimate of the reward function with the corresponding value
function, modulated by a sign to indicate whether the optimism or
pessimism is chosen. VPO also directly optimizes the policy with implicit
reward modeling, and therefore shares a simpler RLHF pipeline similar to direct
preference optimization. Theoretical guarantees of VPO are provided for both
online and offline settings, matching the rates of their standard RL
counterparts. Moreover, experiments on text summarization and dialog verify the
practicality and effectiveness of VPO.Summary
AI-Generated Summary