WPO: Mejora del RLHF mediante Optimización de Preferencias Ponderadas
WPO: Enhancing RLHF with Weighted Preference Optimization
June 17, 2024
Autores: Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu
cs.AI
Resumen
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) es una solución prometedora para alinear más estrechamente los modelos de lenguaje grandes (LLMs) con los valores humanos. La optimización de preferencias fuera de política, donde los datos de preferencia se obtienen de otros modelos, es ampliamente adoptada debido a su eficiencia en costos y escalabilidad. Sin embargo, la optimización de preferencias fuera de política a menudo sufre de una brecha distribucional entre la política utilizada para la recolección de datos y la política objetivo, lo que lleva a una optimización subóptima. En este artículo, proponemos una estrategia novedosa para mitigar este problema simulando el aprendizaje en política con datos de preferencia fuera de política. Nuestro método de Optimización de Preferencias Ponderadas (WPO) adapta los datos fuera de política para que se asemejen más a los datos en política, reasignando peso a los pares de preferencia según su probabilidad bajo la política actual. Este método no solo aborda el problema de la brecha distribucional, sino que también mejora el proceso de optimización sin incurrir en costos adicionales. Validamos nuestro método en puntos de referencia de seguimiento de instrucciones, incluyendo Alpaca Eval 2 y MT-bench. WPO no solo supera a la Optimización Directa de Preferencias (DPO) en hasta un 5.6% en Alpaca Eval 2, sino que también establece una tasa de victoria controlada por longitud notable del 48.6% frente a GPT-4-turbo basado en Llama-3-8B-Instruct, convirtiéndolo en el modelo de 8B más fuerte en el ranking. Publicaremos el código y los modelos en https://github.com/wzhouad/WPO.
English
Reinforcement learning from human feedback (RLHF) is a promising solution to
align large language models (LLMs) more closely with human values. Off-policy
preference optimization, where the preference data is obtained from other
models, is widely adopted due to its cost efficiency and scalability. However,
off-policy preference optimization often suffers from a distributional gap
between the policy used for data collection and the target policy, leading to
suboptimal optimization. In this paper, we propose a novel strategy to mitigate
this problem by simulating on-policy learning with off-policy preference data.
Our Weighted Preference Optimization (WPO) method adapts off-policy data to
resemble on-policy data more closely by reweighting preference pairs according
to their probability under the current policy. This method not only addresses
the distributional gap problem but also enhances the optimization process
without incurring additional costs. We validate our method on instruction
following benchmarks including Alpaca Eval 2 and MT-bench. WPO not only
outperforms Direct Preference Optimization (DPO) by up to 5.6% on Alpaca Eval 2
but also establishes a remarkable length-controlled winning rate against
GPT-4-turbo of 48.6% based on Llama-3-8B-Instruct, making it the strongest 8B
model on the leaderboard. We will release the code and models at
https://github.com/wzhouad/WPO.Summary
AI-Generated Summary