WPO: Aprimorando o RLHF com Otimização de Preferências Ponderadas
WPO: Enhancing RLHF with Weighted Preference Optimization
June 17, 2024
Autores: Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu
cs.AI
Resumo
O aprendizado por reforço com feedback humano (RLHF) é uma solução promissora para alinhar modelos de linguagem de grande escala (LLMs) mais de perto com os valores humanos. A otimização de preferências fora da política, onde os dados de preferência são obtidos de outros modelos, é amplamente adotada devido à sua eficiência de custo e escalabilidade. No entanto, a otimização de preferências fora da política frequentemente sofre com uma lacuna distribucional entre a política usada para coleta de dados e a política alvo, levando a uma otimização subótima. Neste artigo, propomos uma nova estratégia para mitigar esse problema simulando o aprendizado dentro da política com dados de preferência fora da política. Nosso método de Otimização de Preferências Ponderadas (WPO) adapta os dados fora da política para se assemelharem mais aos dados dentro da política, reponderando os pares de preferência de acordo com sua probabilidade sob a política atual. Esse método não apenas aborda o problema da lacuna distribucional, mas também aprimora o processo de otimização sem incorrer em custos adicionais. Validamos nosso método em benchmarks de seguimento de instruções, incluindo Alpaca Eval 2 e MT-bench. O WPO não apenas supera a Otimização Direta de Preferências (DPO) em até 5,6% no Alpaca Eval 2, mas também estabelece uma taxa de vitória notável controlada por comprimento contra o GPT-4-turbo de 48,6% com base no Llama-3-8B-Instruct, tornando-o o modelo de 8B mais forte no ranking. Disponibilizaremos o código e os modelos em https://github.com/wzhouad/WPO.
English
Reinforcement learning from human feedback (RLHF) is a promising solution to
align large language models (LLMs) more closely with human values. Off-policy
preference optimization, where the preference data is obtained from other
models, is widely adopted due to its cost efficiency and scalability. However,
off-policy preference optimization often suffers from a distributional gap
between the policy used for data collection and the target policy, leading to
suboptimal optimization. In this paper, we propose a novel strategy to mitigate
this problem by simulating on-policy learning with off-policy preference data.
Our Weighted Preference Optimization (WPO) method adapts off-policy data to
resemble on-policy data more closely by reweighting preference pairs according
to their probability under the current policy. This method not only addresses
the distributional gap problem but also enhances the optimization process
without incurring additional costs. We validate our method on instruction
following benchmarks including Alpaca Eval 2 and MT-bench. WPO not only
outperforms Direct Preference Optimization (DPO) by up to 5.6% on Alpaca Eval 2
but also establishes a remarkable length-controlled winning rate against
GPT-4-turbo of 48.6% based on Llama-3-8B-Instruct, making it the strongest 8B
model on the leaderboard. We will release the code and models at
https://github.com/wzhouad/WPO.