Équivalence conditionnelle du DPO et du RLHF : hypothèse implicite, modes d'échec et alignement prouvable

Résumé

L'Optimisation Directe des Préférences (DPO) est devenue une alternative populaire à l'Apprentissage par Renforcement à partir du Retour Humain (RLHF), offrant une équivalence théorique avec une implémentation plus simple. Nous démontrons que cette équivalence est conditionnelle plutôt qu'universelle, dépendant d'une hypothèse implicite fréquemment violée en pratique : la politique optimale selon RLHF doit préférer les réponses préférées par les humains. Lorsque cette hypothèse est en défaut, DPO optimise l'avantage relatif par rapport à la politique de référence plutôt que l'alignement absolu avec les préférences humaines, conduisant à une convergence pathologique où les politiques réduisent la perte DPO tout en préférant les réponses non préférées. Nous caractérisons les cas où cette hypothèse est violée, montrons l'existence d'un espace de solutions indésirables, et prouvons que DPO et RLHF optimisent des objectifs fondamentalement différents dans ces circonstances. Pour y remédier, nous introduisons l'Optimisation Contrainte des Préférences (CPO), qui enrichit RLHF avec des contraintes pour un alignement prouvable. Nous fournissons également une interprétation géométrique via un classement à marge souple, révélant que DPO implémente un classement à marge avec des cibles potentiellement négatives. Notre analyse théorique établit quand les garanties de DPO sont valides et propose des solutions préservant la simplicité avec un alignement prouvable. Des expériences complètes sur des benchmarks standards montrent que CPO atteint des performances de pointe. Le code est disponible à l'adresse : https://github.com/visitworld123/CPO.

English

Direct Preference Optimization (DPO) has emerged as a popular alternative to Reinforcement Learning from Human Feedback (RLHF), offering theoretical equivalence with simpler implementation. We prove this equivalence is conditional rather than universal, depending on an implicit assumption frequently violated in practice: the RLHF-optimal policy must prefer human-preferred responses. When this assumption fails, DPO optimizes relative advantage over the reference policy rather than absolute alignment with human preferences, leading to pathological convergence where policies decrease DPO loss while preferring dispreferred responses. We characterize when this assumption is violated, show the existence of an undesirable solution space, and prove that DPO and RLHF optimize fundamentally different objectives in such cases. To address this, we introduce Constrained Preference Optimization (CPO), augmenting RLHF with constraints for provable alignment. We further provide a geometric interpretation through soft margin ranking, revealing that DPO implements margin ranking with potentially negative targets. Our theoretical analysis establishes when DPOs' guarantees hold and provides solutions preserving simplicity with provable alignment. Comprehensive experiments on standard benchmarks demonstrate that CPO achieves state-of-the-art performance. Code is available at: https://github.com/visitworld123/CPO.