가치-유인 선호 최적화: 온라인 및 오프라인 RLHF를 위한 통합 접근법
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF
May 29, 2024
저자: Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai
cs.AI
초록
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 인간의 선호에 맞추는 데 있어 큰 가능성을 보여주고 있습니다. 선호 데이터의 가용성에 따라 온라인 및 오프라인 RLHF는 활발히 연구되고 있는 분야입니다. 주요 병목 현상은 선호 데이터가 어떻게 수집되었는지에 관계없이, RLHF를 위해 선호 데이터로부터 학습된 보상 함수에 불확실성 추정을 어떻게 통합할지 이해하는 것입니다. 불확실성 하에서의 낙관주의 또는 비관주의 원칙은 표준 강화 학습(RL)에서 잘 정립되어 있지만, 대규모 언어 모델에 적합하며 이론적으로 타당한 형태는 아직 제공되지 않았습니다. 이는 임의의 정책 파라미터화 하에서 신뢰 구간을 구성하는 표준 기법이 다루기 어렵기 때문입니다.
본 논문에서는 온라인 및 오프라인 RLHF를 통합하는 접근 방식인 가치 유도 선호 최적화(VPO)를 소개합니다. VPO는 보상 함수의 최대 가능도 추정치를 해당 가치 함수로 정규화하며, 낙관주의 또는 비관주의를 선택했는지를 나타내는 부호로 조절됩니다. VPO는 또한 암묵적 보상 모델링을 통해 정책을 직접 최적화하므로, 직접 선호 최적화와 유사한 더 간단한 RLHF 파이프라인을 공유합니다. VPO의 이론적 보장은 온라인 및 오프라인 설정 모두에서 제공되며, 표준 RL의 속도와 일치합니다. 또한, 텍스트 요약 및 대화 실험을 통해 VPO의 실용성과 효과성을 검증하였습니다.
English
Reinforcement learning from human feedback (RLHF) has demonstrated great
promise in aligning large language models (LLMs) with human preference.
Depending on the availability of preference data, both online and offline RLHF
are active areas of investigation. A key bottleneck is understanding how to
incorporate uncertainty estimation in the reward function learned from the
preference data for RLHF, regardless of how the preference data is collected.
While the principles of optimism or pessimism under uncertainty are
well-established in standard reinforcement learning (RL), a
practically-implementable and theoretically-grounded form amenable to large
language models is not yet available, as standard techniques for constructing
confidence intervals become intractable under arbitrary policy
parameterizations.
In this paper, we introduce a unified approach to online and offline RLHF --
value-incentivized preference optimization (VPO) -- which regularizes the
maximum-likelihood estimate of the reward function with the corresponding value
function, modulated by a sign to indicate whether the optimism or
pessimism is chosen. VPO also directly optimizes the policy with implicit
reward modeling, and therefore shares a simpler RLHF pipeline similar to direct
preference optimization. Theoretical guarantees of VPO are provided for both
online and offline settings, matching the rates of their standard RL
counterparts. Moreover, experiments on text summarization and dialog verify the
practicality and effectiveness of VPO.Summary
AI-Generated Summary