DPO-Shift: Cambiare la Distribuzione dell' Ottimizzazione delle Preferenze Dirette
DPO-Shift: Shifting the Distribution of Direct Preference Optimization
February 11, 2025
Autori: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li
cs.AI
Abstract
L'ottimizzazione diretta delle preferenze (DPO) e le sue varianti sono diventate sempre più popolari per allineare i modelli linguistici con le preferenze umane. Questi metodi mirano a insegnare ai modelli a distinguere meglio tra risposte scelte (o preferite) e respinte (o non preferite). Tuttavia, ricerche precedenti hanno identificato che la probabilità delle risposte scelte spesso diminuisce durante l'addestramento, e questo fenomeno è noto come spostamento della probabilità. Per affrontare questa sfida, in questo lavoro introduciamo \method per spostare in modo controllato la distribuzione della probabilità delle risposte scelte. Successivamente, dimostriamo che \method presenta un trade-off fondamentale tra il miglioramento della probabilità delle risposte scelte e il sacrificio del margine di ricompensa, supportato sia da un'analisi teorica che da una validazione sperimentale. Inoltre, dimostriamo la superiorità di \method rispetto a DPO su compiti successivi come MT-Bench e un esperimento di tasso di vincita progettato. Riteniamo che questo studio dimostri che il problema dello spostamento della probabilità di DPO può essere efficacemente mitigato con una soluzione semplice e teoricamente fondata. Il nostro codice è disponibile su https://github.com/Meaquadddd/DPO-Shift.
English
Direct Preference Optimization (DPO) and its variants have become
increasingly popular for aligning language models with human preferences. These
methods aim to teach models to better distinguish between chosen (or preferred)
and rejected (or dispreferred) responses. However, prior research has
identified that the probability of chosen responses often decreases during
training, and this phenomenon is known as likelihood displacement. To tackle
this challenge, in this work we introduce \method to controllably shift the
distribution of the chosen probability. Then, we show that \method exhibits a
fundamental trade-off between improving the chosen probability and sacrificing
the reward margin, as supported by both theoretical analysis and experimental
validation. Furthermore, we demonstrate the superiority of \method over DPO on
downstream tasks such as MT-Bench and a designed win rate experiment. We
believe this study shows that the likelihood displacement issue of DPO can be
effectively mitigated with a simple, theoretically grounded solution. Our code
is available at https://github.com/Meaquadddd/DPO-Shift.Summary
AI-Generated Summary