ChatPaper.aiChatPaper

DPO-Shift: Cambiare la Distribuzione dell' Ottimizzazione delle Preferenze Dirette

DPO-Shift: Shifting the Distribution of Direct Preference Optimization

February 11, 2025
Autori: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li
cs.AI

Abstract

L'ottimizzazione diretta delle preferenze (DPO) e le sue varianti sono diventate sempre più popolari per allineare i modelli linguistici con le preferenze umane. Questi metodi mirano a insegnare ai modelli a distinguere meglio tra risposte scelte (o preferite) e respinte (o non preferite). Tuttavia, ricerche precedenti hanno identificato che la probabilità delle risposte scelte spesso diminuisce durante l'addestramento, e questo fenomeno è noto come spostamento della probabilità. Per affrontare questa sfida, in questo lavoro introduciamo \method per spostare in modo controllato la distribuzione della probabilità delle risposte scelte. Successivamente, dimostriamo che \method presenta un trade-off fondamentale tra il miglioramento della probabilità delle risposte scelte e il sacrificio del margine di ricompensa, supportato sia da un'analisi teorica che da una validazione sperimentale. Inoltre, dimostriamo la superiorità di \method rispetto a DPO su compiti successivi come MT-Bench e un esperimento di tasso di vincita progettato. Riteniamo che questo studio dimostri che il problema dello spostamento della probabilità di DPO può essere efficacemente mitigato con una soluzione semplice e teoricamente fondata. Il nostro codice è disponibile su https://github.com/Meaquadddd/DPO-Shift.
English
Direct Preference Optimization (DPO) and its variants have become increasingly popular for aligning language models with human preferences. These methods aim to teach models to better distinguish between chosen (or preferred) and rejected (or dispreferred) responses. However, prior research has identified that the probability of chosen responses often decreases during training, and this phenomenon is known as likelihood displacement. To tackle this challenge, in this work we introduce \method to controllably shift the distribution of the chosen probability. Then, we show that \method exhibits a fundamental trade-off between improving the chosen probability and sacrificing the reward margin, as supported by both theoretical analysis and experimental validation. Furthermore, we demonstrate the superiority of \method over DPO on downstream tasks such as MT-Bench and a designed win rate experiment. We believe this study shows that the likelihood displacement issue of DPO can be effectively mitigated with a simple, theoretically grounded solution. Our code is available at https://github.com/Meaquadddd/DPO-Shift.

Summary

AI-Generated Summary

PDF152February 13, 2025