WPO: 가중치 기반 선호 최적화를 통한 RLHF 성능 향상
WPO: Enhancing RLHF with Weighted Preference Optimization
June 17, 2024
저자: Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu
cs.AI
초록
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 인간의 가치에 더욱 근접하게 정렬하기 위한 유망한 솔루션입니다. 비용 효율성과 확장성으로 인해, 선호 데이터를 다른 모델에서 얻는 오프-정책 선호 최적화가 널리 채택되고 있습니다. 그러나 오프-정책 선호 최적화는 데이터 수집에 사용된 정책과 목표 정책 간의 분포 차이로 인해 종종 최적화가 제대로 이루어지지 않는 문제를 겪습니다. 본 논문에서는 오프-정책 선호 데이터를 활용하여 온-정책 학습을 시뮬레이션함으로써 이 문제를 완화하는 새로운 전략을 제안합니다. 우리의 가중치 선호 최적화(WPO) 방법은 현재 정책 하에서의 확률에 따라 선호 쌍을 재가중함으로써 오프-정책 데이터를 온-정책 데이터에 더 가깝게 조정합니다. 이 방법은 분포 차이 문제를 해결할 뿐만 아니라 추가 비용 없이 최적화 과정을 개선합니다. 우리는 Alpaca Eval 2 및 MT-bench를 포함한 지시 따르기 벤치마크에서 이 방법을 검증했습니다. WPO는 Alpaca Eval 2에서 직접 선호 최적화(DPO)를 최대 5.6%까지 능가했으며, Llama-3-8B-Instruct 기반으로 GPT-4-turbo에 대해 48.6%의 놀라운 길이 제어 승률을 기록하며 리더보드에서 가장 강력한 8B 모델로 자리매김했습니다. 코드와 모델은 https://github.com/wzhouad/WPO에서 공개할 예정입니다.
English
Reinforcement learning from human feedback (RLHF) is a promising solution to
align large language models (LLMs) more closely with human values. Off-policy
preference optimization, where the preference data is obtained from other
models, is widely adopted due to its cost efficiency and scalability. However,
off-policy preference optimization often suffers from a distributional gap
between the policy used for data collection and the target policy, leading to
suboptimal optimization. In this paper, we propose a novel strategy to mitigate
this problem by simulating on-policy learning with off-policy preference data.
Our Weighted Preference Optimization (WPO) method adapts off-policy data to
resemble on-policy data more closely by reweighting preference pairs according
to their probability under the current policy. This method not only addresses
the distributional gap problem but also enhances the optimization process
without incurring additional costs. We validate our method on instruction
following benchmarks including Alpaca Eval 2 and MT-bench. WPO not only
outperforms Direct Preference Optimization (DPO) by up to 5.6% on Alpaca Eval 2
but also establishes a remarkable length-controlled winning rate against
GPT-4-turbo of 48.6% based on Llama-3-8B-Instruct, making it the strongest 8B
model on the leaderboard. We will release the code and models at
https://github.com/wzhouad/WPO.Summary
AI-Generated Summary