Оптимизация предпочтений с учетом стоимости: единый подход к онлайн и офлайн обучению с подкреплением с функцией оценки полезности.
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF
May 29, 2024
Авторы: Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai
cs.AI
Аннотация
Обучение с подкреплением на основе обратной связи от человека (RLHF) продемонстрировало большой потенциал в согласовании больших языковых моделей (LLM) с предпочтениями человека. В зависимости от доступности данных о предпочтениях, как онлайн, так и офлайн RLHF являются активными областями исследований. Одним из ключевых узких мест является понимание того, как интегрировать оценку неопределенности в функцию вознаграждения, изученную из данных о предпочтениях для RLHF, независимо от того, как эти данные о предпочтениях собираются. Хотя принципы оптимизма или пессимизма в условиях неопределенности хорошо известны в стандартном обучении с подкреплением (RL), практически реализуемая и теоретически обоснованная форма, удобная для больших языковых моделей, пока не доступна, поскольку стандартные методики построения доверительных интервалов становятся неустойчивыми при произвольных параметризациях политики. В данной статье мы представляем унифицированный подход к онлайн и офлайн RLHF - оптимизация предпочтений с инцентивами к ценности (VPO) - который регуляризует оценку максимального правдоподобия функции вознаграждения соответствующей функцией ценности, модулируемой знаком для указания выбора оптимизма или пессимизма. VPO также напрямую оптимизирует политику с неявным моделированием вознаграждения и, следовательно, имеет более простую конвейерную систему RLHF, аналогичную прямой оптимизации предпочтений. Теоретические гарантии VPO предоставляются как для онлайн, так и для офлайн настроек, соответствуя скоростям их стандартных RL аналогов. Более того, эксперименты по суммированию текста и диалогу подтверждают практичность и эффективность VPO.
English
Reinforcement learning from human feedback (RLHF) has demonstrated great
promise in aligning large language models (LLMs) with human preference.
Depending on the availability of preference data, both online and offline RLHF
are active areas of investigation. A key bottleneck is understanding how to
incorporate uncertainty estimation in the reward function learned from the
preference data for RLHF, regardless of how the preference data is collected.
While the principles of optimism or pessimism under uncertainty are
well-established in standard reinforcement learning (RL), a
practically-implementable and theoretically-grounded form amenable to large
language models is not yet available, as standard techniques for constructing
confidence intervals become intractable under arbitrary policy
parameterizations.
In this paper, we introduce a unified approach to online and offline RLHF --
value-incentivized preference optimization (VPO) -- which regularizes the
maximum-likelihood estimate of the reward function with the corresponding value
function, modulated by a sign to indicate whether the optimism or
pessimism is chosen. VPO also directly optimizes the policy with implicit
reward modeling, and therefore shares a simpler RLHF pipeline similar to direct
preference optimization. Theoretical guarantees of VPO are provided for both
online and offline settings, matching the rates of their standard RL
counterparts. Moreover, experiments on text summarization and dialog verify the
practicality and effectiveness of VPO.Summary
AI-Generated Summary