Bedingte Äquivalenz von DPO und RLHF: Implizite Annahme, Fehlermodi und nachweisbare Ausrichtung

Zusammenfassung

Die Direkte Präferenzoptimierung (DPO) hat sich als beliebte Alternative zum Verstärkenden Lernen aus menschlichem Feedback (RLHF) etabliert und bietet theoretische Äquivalenz bei einfacherer Implementierung. Wir beweisen, dass diese Äquivalenz bedingt und nicht universell ist – sie hängt von einer impliziten Annahme ab, die in der Praxis häufig verletzt wird: Die RLHF-optimale Politik muss von Menschen bevorzugte Antworten bevorzugen. Wenn diese Annahme verletzt wird, optimiert DPO den relativen Vorteil gegenüber der Referenzpolitik anstelle der absoluten Ausrichtung mit menschlichen Präferenzen, was zu pathologischer Konvergenz führt, bei der Politiken den DPO-Verlust verringern, während sie nicht bevorzugte Antworten bevorzugen. Wir charakterisieren, wann diese Annahme verletzt wird, zeigen die Existenz eines unerwünschten Lösungsraums und beweisen, dass DPO und RLHF in solchen Fällen grundlegend verschiedene Zielsetzungen optimieren. Um dies zu adressieren, führen wir die Beschränkte Präferenzoptimierung (CPO) ein, die RLHF um Einschränkungen für eine beweisbare Ausrichtung erweitert. Darüber hinaus liefern wir eine geometrische Interpretation mittels Soft-Margin-Ranking, die zeigt, dass DPO ein Margin-Ranking mit potenziell negativen Zielwerten implementiert. Unsere theoretische Analyse legt fest, wann die Garantien von DPO gelten, und liefert Lösungen, die Einfachheit bei beweisbarer Ausrichtung bewahren. Umfassende Experimente mit Standard-Benchmarks zeigen, dass CPO Spitzenleistungen erzielt. Der Code ist verfügbar unter: https://github.com/visitworld123/CPO.

English

Direct Preference Optimization (DPO) has emerged as a popular alternative to Reinforcement Learning from Human Feedback (RLHF), offering theoretical equivalence with simpler implementation. We prove this equivalence is conditional rather than universal, depending on an implicit assumption frequently violated in practice: the RLHF-optimal policy must prefer human-preferred responses. When this assumption fails, DPO optimizes relative advantage over the reference policy rather than absolute alignment with human preferences, leading to pathological convergence where policies decrease DPO loss while preferring dispreferred responses. We characterize when this assumption is violated, show the existence of an undesirable solution space, and prove that DPO and RLHF optimize fundamentally different objectives in such cases. To address this, we introduce Constrained Preference Optimization (CPO), augmenting RLHF with constraints for provable alignment. We further provide a geometric interpretation through soft margin ranking, revealing that DPO implements margin ranking with potentially negative targets. Our theoretical analysis establishes when DPOs' guarantees hold and provides solutions preserving simplicity with provable alignment. Comprehensive experiments on standard benchmarks demonstrate that CPO achieves state-of-the-art performance. Code is available at: https://github.com/visitworld123/CPO.