Conditionele equivalentie van DPO en RLHF: Impliciete aanname, faalwijzen en bewijsbare afstemming

Samenvatting

Direct Preference Optimization (DPO) is naar voren gekomen als een populair alternatief voor Reinforcement Learning from Human Feedback (RLHF), met theoretische equivalentie en een eenvoudigere implementatie. We bewijzen dat deze equivalentie voorwaardelijk is in plaats van universeel, afhankelijk van een impliciete aanname die in de praktijk vaak wordt geschonden: het RLHF-optimale beleid moet de door mensen geprefereerde reacties verkiezen. Wanneer deze aanname faalt, optimaliseert DPO een relatief voordeel ten opzichte van het referentiebeleid in plaats van absolute afstemming op menselijke voorkeuren, wat leidt tot pathologische convergentie waarbij beleidslijnen het DPO-verlies verlagen terwijl ze de voorkeur geven aan niet-geprefereerde reacties. We karakteriseren wanneer deze aanname wordt geschonden, tonen het bestaan van een ongewenste oplossingsruimte aan en bewijzen dat DPO en RLHF in dergelijke gevallen fundamenteel verschillende doelstellingen optimaliseren. Om dit aan te pakken introduceren we Constrained Preference Optimization (CPO), waarbij RLHF wordt uitgebreid met beperkingen voor aantoonbare afstemming. We bieden verder een geometrische interpretatie via soft margin ranking, waaruit blijkt dat DPO margin ranking implementeert met potentieel negatieve doelen. Onze theoretische analyse stelt vast wanneer de garanties van DPO gelden en biedt oplossingen die eenvoud behouden met aantoonbare afstemming. Uitgebreide experimenten op standaard benchmarks tonen aan dat CPO state-of-the-art prestaties levert. Code is beschikbaar op: https://github.com/visitworld123/CPO.

English

Direct Preference Optimization (DPO) has emerged as a popular alternative to Reinforcement Learning from Human Feedback (RLHF), offering theoretical equivalence with simpler implementation. We prove this equivalence is conditional rather than universal, depending on an implicit assumption frequently violated in practice: the RLHF-optimal policy must prefer human-preferred responses. When this assumption fails, DPO optimizes relative advantage over the reference policy rather than absolute alignment with human preferences, leading to pathological convergence where policies decrease DPO loss while preferring dispreferred responses. We characterize when this assumption is violated, show the existence of an undesirable solution space, and prove that DPO and RLHF optimize fundamentally different objectives in such cases. To address this, we introduce Constrained Preference Optimization (CPO), augmenting RLHF with constraints for provable alignment. We further provide a geometric interpretation through soft margin ranking, revealing that DPO implements margin ranking with potentially negative targets. Our theoretical analysis establishes when DPOs' guarantees hold and provides solutions preserving simplicity with provable alignment. Comprehensive experiments on standard benchmarks demonstrate that CPO achieves state-of-the-art performance. Code is available at: https://github.com/visitworld123/CPO.