ChatPaper.aiChatPaper

DPO-Shift : Déplacement de la Distribution de l'Optimisation des Préférences Directes

DPO-Shift: Shifting the Distribution of Direct Preference Optimization

February 11, 2025
Auteurs: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li
cs.AI

Résumé

L'Optimisation Directe des Préférences (ODP) et ses variantes sont devenues de plus en plus populaires pour aligner les modèles de langage sur les préférences humaines. Ces méthodes visent à apprendre aux modèles à mieux distinguer entre les réponses choisies (ou préférées) et les réponses rejetées (ou non préférées). Cependant, des recherches antérieures ont identifié que la probabilité des réponses choisies diminue souvent pendant l'entraînement, phénomène connu sous le nom de déplacement de vraisemblance. Pour relever ce défi, dans ce travail, nous introduisons \method pour déplacer de manière contrôlée la distribution de la probabilité des réponses choisies. Ensuite, nous montrons que \method présente un compromis fondamental entre l'amélioration de la probabilité des réponses choisies et le sacrifice de la marge de récompense, comme le soutiennent à la fois l'analyse théorique et la validation expérimentale. De plus, nous démontrons la supériorité de \method par rapport à l'ODP sur des tâches ultérieures telles que MT-Bench et une expérience de taux de victoire conçue. Nous pensons que cette étude montre que le problème de déplacement de vraisemblance de l'ODP peut être efficacement atténué avec une solution simple, fondée sur la théorie. Notre code est disponible sur https://github.com/Meaquadddd/DPO-Shift.
English
Direct Preference Optimization (DPO) and its variants have become increasingly popular for aligning language models with human preferences. These methods aim to teach models to better distinguish between chosen (or preferred) and rejected (or dispreferred) responses. However, prior research has identified that the probability of chosen responses often decreases during training, and this phenomenon is known as likelihood displacement. To tackle this challenge, in this work we introduce \method to controllably shift the distribution of the chosen probability. Then, we show that \method exhibits a fundamental trade-off between improving the chosen probability and sacrificing the reward margin, as supported by both theoretical analysis and experimental validation. Furthermore, we demonstrate the superiority of \method over DPO on downstream tasks such as MT-Bench and a designed win rate experiment. We believe this study shows that the likelihood displacement issue of DPO can be effectively mitigated with a simple, theoretically grounded solution. Our code is available at https://github.com/Meaquadddd/DPO-Shift.

Summary

AI-Generated Summary

PDF152February 13, 2025