DPO-Shift: Het verschuiven van de distributie van Directe Voorkeurs Optimalisatie
DPO-Shift: Shifting the Distribution of Direct Preference Optimization
February 11, 2025
Auteurs: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li
cs.AI
Samenvatting
Directe Voorkeursoptimalisatie (DPO) en de varianten ervan zijn steeds populairder geworden voor het afstemmen van taalmodellen op menselijke voorkeuren. Deze methoden hebben tot doel modellen beter te leren onderscheid te maken tussen gekozen (of gewenste) en afgewezen (of ongewenste) reacties. Echter, eerder onderzoek heeft vastgesteld dat de waarschijnlijkheid van gekozen reacties vaak afneemt tijdens training, en dit fenomeen staat bekend als waarschijnlijkheidsverschuiving. Om dit probleem aan te pakken, introduceren we in dit werk \methode om de verdeling van de gekozen waarschijnlijkheid op een controleerbare manier te verschuiven. Vervolgens laten we zien dat \methode een fundamenteel compromis vertoont tussen het verbeteren van de gekozen waarschijnlijkheid en het opofferen van de beloningsmarge, zoals ondersteund door zowel theoretische analyse als experimentele validatie. Bovendien tonen we de superioriteit van \methode ten opzichte van DPO op downstream taken zoals MT-Bench en een ontworpen winstrate-experiment. We zijn van mening dat deze studie aantoont dat het probleem van waarschijnlijkheidsverschuiving van DPO effectief kan worden verminderd met een eenvoudige, theoretisch gefundeerde oplossing. Onze code is beschikbaar op https://github.com/Meaquadddd/DPO-Shift.
English
Direct Preference Optimization (DPO) and its variants have become
increasingly popular for aligning language models with human preferences. These
methods aim to teach models to better distinguish between chosen (or preferred)
and rejected (or dispreferred) responses. However, prior research has
identified that the probability of chosen responses often decreases during
training, and this phenomenon is known as likelihood displacement. To tackle
this challenge, in this work we introduce \method to controllably shift the
distribution of the chosen probability. Then, we show that \method exhibits a
fundamental trade-off between improving the chosen probability and sacrificing
the reward margin, as supported by both theoretical analysis and experimental
validation. Furthermore, we demonstrate the superiority of \method over DPO on
downstream tasks such as MT-Bench and a designed win rate experiment. We
believe this study shows that the likelihood displacement issue of DPO can be
effectively mitigated with a simple, theoretically grounded solution. Our code
is available at https://github.com/Meaquadddd/DPO-Shift.Summary
AI-Generated Summary