Equivalencia Condicional de DPO y RLHF: Suposición Implícita, Modos de Falla y Alineación Demostrable

Resumen

La Optimización Directa de Preferencias (DPO) ha surgido como una alternativa popular al Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), ofreciendo equivalencia teórica con una implementación más simple. Demostramos que esta equivalencia es condicional, no universal, dependiendo de un supuesto implícito frecuentemente violado en la práctica: la política óptima de RLHF debe preferir las respuestas preferidas por humanos. Cuando este supuesto falla, DPO optimiza la ventaja relativa respecto a la política de referencia en lugar de la alineación absoluta con las preferencias humanas, lo que lleva a una convergencia patológica donde las políticas reducen la pérdida de DPO mientras prefieren respuestas no preferidas. Caracterizamos cuándo se viola este supuesto, mostramos la existencia de un espacio de soluciones indeseables y probamos que DPO y RLHF optimizan objetivos fundamentalmente diferentes en tales casos. Para abordar esto, introducimos la Optimización de Preferencias con Restricciones (CPO), que aumenta RLHF con restricciones para una alineación demostrable. Además, proporcionamos una interpretación geométrica mediante ranking de margen suave, revelando que DPO implementa un ranking de margen con objetivos potencialmente negativos. Nuestro análisis teórico establece cuándo se cumplen las garantías de DPO y ofrece soluciones que preservan la simplicidad con una alineación demostrable. Experimentos exhaustivos en benchmarks estándar demuestran que CPO alcanza un rendimiento de estado del arte. El código está disponible en: https://github.com/visitworld123/CPO.

English

Direct Preference Optimization (DPO) has emerged as a popular alternative to Reinforcement Learning from Human Feedback (RLHF), offering theoretical equivalence with simpler implementation. We prove this equivalence is conditional rather than universal, depending on an implicit assumption frequently violated in practice: the RLHF-optimal policy must prefer human-preferred responses. When this assumption fails, DPO optimizes relative advantage over the reference policy rather than absolute alignment with human preferences, leading to pathological convergence where policies decrease DPO loss while preferring dispreferred responses. We characterize when this assumption is violated, show the existence of an undesirable solution space, and prove that DPO and RLHF optimize fundamentally different objectives in such cases. To address this, we introduce Constrained Preference Optimization (CPO), augmenting RLHF with constraints for provable alignment. We further provide a geometric interpretation through soft margin ranking, revealing that DPO implements margin ranking with potentially negative targets. Our theoretical analysis establishes when DPOs' guarantees hold and provides solutions preserving simplicity with provable alignment. Comprehensive experiments on standard benchmarks demonstrate that CPO achieves state-of-the-art performance. Code is available at: https://github.com/visitworld123/CPO.