ChatPaper.aiChatPaper

DPO-Shift: Cambiando la Distribución de la Optimización de Preferencia Directa

DPO-Shift: Shifting the Distribution of Direct Preference Optimization

February 11, 2025
Autores: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li
cs.AI

Resumen

La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) y sus variantes se han vuelto cada vez más populares para alinear los modelos de lenguaje con las preferencias humanas. Estos métodos tienen como objetivo enseñar a los modelos a distinguir mejor entre respuestas elegidas (o preferidas) y respuestas rechazadas (o no preferidas). Sin embargo, investigaciones previas han identificado que la probabilidad de respuestas elegidas a menudo disminuye durante el entrenamiento, fenómeno conocido como desplazamiento de probabilidad. Para abordar este desafío, en este trabajo presentamos \method para desplazar de manera controlada la distribución de la probabilidad de las respuestas elegidas. Luego, demostramos que \method exhibe un trade-off fundamental entre mejorar la probabilidad de las respuestas elegidas y sacrificar el margen de recompensa, respaldado tanto por análisis teóricos como por validación experimental. Además, demostramos la superioridad de \method sobre DPO en tareas posteriores como MT-Bench y un experimento diseñado para la tasa de victorias. Creemos que este estudio muestra que el problema de desplazamiento de probabilidad de DPO puede ser mitigado de manera efectiva con una solución simple y fundamentada teóricamente. Nuestro código está disponible en https://github.com/Meaquadddd/DPO-Shift.
English
Direct Preference Optimization (DPO) and its variants have become increasingly popular for aligning language models with human preferences. These methods aim to teach models to better distinguish between chosen (or preferred) and rejected (or dispreferred) responses. However, prior research has identified that the probability of chosen responses often decreases during training, and this phenomenon is known as likelihood displacement. To tackle this challenge, in this work we introduce \method to controllably shift the distribution of the chosen probability. Then, we show that \method exhibits a fundamental trade-off between improving the chosen probability and sacrificing the reward margin, as supported by both theoretical analysis and experimental validation. Furthermore, we demonstrate the superiority of \method over DPO on downstream tasks such as MT-Bench and a designed win rate experiment. We believe this study shows that the likelihood displacement issue of DPO can be effectively mitigated with a simple, theoretically grounded solution. Our code is available at https://github.com/Meaquadddd/DPO-Shift.

Summary

AI-Generated Summary

PDF152February 13, 2025