통계적 기각 샘플링이 선호도 최적화를 개선한다
Statistical Rejection Sampling Improves Preference Optimization
September 13, 2023
저자: Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh, Peter J. Liu, Jialu Liu
cs.AI
초록
언어 모델의 인간 선호도와의 정렬을 개선하는 것은 여전히 활발한 연구 과제로 남아 있습니다. 기존의 접근 방식은 주로 Proximal Policy Optimization (PPO)와 같은 온라인 강화 학습(RL) 방법을 통해 인간 피드백으로부터의 강화 학습(RLHF)을 활용해 왔습니다. 최근에는 Sequence Likelihood Calibration (SLiC) 및 Direct Preference Optimization (DPO)와 같은 오프라인 방법이 대안으로 부상하며, 안정성과 확장성을 개선하면서도 경쟁력 있는 성능을 유지하고 있습니다. SLiC는 지도 미세 조정(SFT) 정책에서 샘플링된 시퀀스 쌍을 사용하여 손실 함수를 개선하는 반면, DPO는 별도의 보상 모델 없이 선호 데이터를 기반으로 언어 모델을 직접 최적화합니다. 그러나 목표 최적 정책의 최대 가능도 추정량(MLE)은 해당 정책에서 샘플링된 레이블된 선호 쌍을 필요로 합니다. DPO는 보상 모델이 없기 때문에 최적 정책에서 선호 쌍을 샘플링하는 능력이 제한되며, SLiC는 SFT 정책에서만 선호 쌍을 샘플링할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 거부 샘플링을 사용하여 목표 최적 정책에서 선호 데이터를 수집함으로써 최적 정책을 더 정확하게 추정하는 새로운 접근 방식인 Statistical Rejection Sampling Optimization (RSO)을 소개합니다. 또한, 선호 모델링 관점에서 SLiC와 DPO에서 사용되는 손실 함수를 개선하는 통합 프레임워크를 제안합니다. 세 가지 다양한 작업에 걸친 광범위한 실험을 통해, RSO가 대형 언어 모델(LLM)과 인간 평가자 모두의 평가에서 SLiC와 DPO를 일관되게 능가함을 입증합니다.
English
Improving the alignment of language models with human preferences remains an
active research challenge. Previous approaches have primarily utilized
Reinforcement Learning from Human Feedback (RLHF) via online RL methods such as
Proximal Policy Optimization (PPO). Recently, offline methods such as Sequence
Likelihood Calibration (SLiC) and Direct Preference Optimization (DPO) have
emerged as attractive alternatives, offering improvements in stability and
scalability while maintaining competitive performance. SLiC refines its loss
function using sequence pairs sampled from a supervised fine-tuned (SFT)
policy, while DPO directly optimizes language models based on preference data,
foregoing the need for a separate reward model. However, the maximum likelihood
estimator (MLE) of the target optimal policy requires labeled preference pairs
sampled from that policy. DPO's lack of a reward model constrains its ability
to sample preference pairs from the optimal policy, and SLiC is restricted to
sampling preference pairs only from the SFT policy. To address these
limitations, we introduce a novel approach called Statistical Rejection
Sampling Optimization (RSO) that aims to source preference data from the target
optimal policy using rejection sampling, enabling a more accurate estimation of
the optimal policy. We also propose a unified framework that enhances the loss
functions used in both SLiC and DPO from a preference modeling standpoint.
Through extensive experiments across three diverse tasks, we demonstrate that
RSO consistently outperforms both SLiC and DPO on evaluations from both Large
Language Model (LLM) and human raters.