DPO-Verschiebung: Verschiebung der Verteilung der direkten Präferenzoptimierung
DPO-Shift: Shifting the Distribution of Direct Preference Optimization
February 11, 2025
Autoren: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li
cs.AI
Zusammenfassung
Die direkte Präferenzoptimierung (DPO) und ihre Varianten sind zunehmend beliebt geworden, um Sprachmodelle mit menschlichen Präferenzen in Einklang zu bringen. Diese Methoden zielen darauf ab, den Modellen beizubringen, besser zwischen ausgewählten (oder bevorzugten) und abgelehnten (oder nicht bevorzugten) Antworten zu unterscheiden. Allerdings hat die bisherige Forschung festgestellt, dass die Wahrscheinlichkeit von ausgewählten Antworten während des Trainings oft abnimmt, und dieses Phänomen wird als Wahrscheinlichkeitsverschiebung bezeichnet. Um diese Herausforderung anzugehen, führen wir in dieser Arbeit \method ein, um die Verteilung der ausgewählten Wahrscheinlichkeit kontrolliert zu verschieben. Anschließend zeigen wir, dass \method einen grundlegenden Kompromiss zwischen der Verbesserung der ausgewählten Wahrscheinlichkeit und dem Verzicht auf den Belohnungsabstand aufweist, wie sowohl durch theoretische Analysen als auch durch experimentelle Validierung unterstützt wird. Darüber hinaus zeigen wir die Überlegenheit von \method gegenüber DPO bei nachgelagerten Aufgaben wie MT-Bench und einem konzipierten Gewinnraten-Experiment. Wir sind der Ansicht, dass diese Studie zeigt, dass das Problem der Wahrscheinlichkeitsverschiebung von DPO mit einer einfachen, theoretisch fundierten Lösung wirksam gemildert werden kann. Unser Code ist unter https://github.com/Meaquadddd/DPO-Shift verfügbar.
English
Direct Preference Optimization (DPO) and its variants have become
increasingly popular for aligning language models with human preferences. These
methods aim to teach models to better distinguish between chosen (or preferred)
and rejected (or dispreferred) responses. However, prior research has
identified that the probability of chosen responses often decreases during
training, and this phenomenon is known as likelihood displacement. To tackle
this challenge, in this work we introduce \method to controllably shift the
distribution of the chosen probability. Then, we show that \method exhibits a
fundamental trade-off between improving the chosen probability and sacrificing
the reward margin, as supported by both theoretical analysis and experimental
validation. Furthermore, we demonstrate the superiority of \method over DPO on
downstream tasks such as MT-Bench and a designed win rate experiment. We
believe this study shows that the likelihood displacement issue of DPO can be
effectively mitigated with a simple, theoretically grounded solution. Our code
is available at https://github.com/Meaquadddd/DPO-Shift.Summary
AI-Generated Summary