DPO와 RLHF의 조건부 동등성: 암묵적 가정, 실패 모드, 그리고 증명 가능한 정렬
Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment
May 20, 2026
저자: Zhiqin Yang, Yonggang Zhang, Wei Xue, Dong Fang, Bo Han, Yike Guo
cs.AI
초록
직접 선호 최적화(DPO)는 인간 피드백을 통한 강화 학습(RLHF)의 대안으로 부상하였으며, 이론적 동등성과 더 간단한 구현을 제공한다. 본 연구는 이러한 동등성이 보편적이기보다 조건적이며, 실제로 자주 위반되는 암묵적 가정, 즉 RLHF 최적 정책이 인간이 선호하는 응답을 선호해야 한다는 가정에 의존함을 증명한다. 이 가정이 성립하지 않을 때, DPO는 인간 선호와의 절대적 일치보다는 참조 정책 대비 상대적 이점을 최적화하게 되며, 이는 정책이 비선호 응답을 선호하면서도 DPO 손실을 감소시키는 병리적 수렴으로 이어진다. 본 연구는 이 가정이 위반되는 조건을 특성화하고, 바람직하지 않은 해 공간의 존재를 보여주며, 이러한 경우 DPO와 RLHF가 근본적으로 다른 목적 함수를 최적화함을 증명한다. 이를 해결하기 위해, 증명 가능한 일치를 위한 제약 조건으로 RLHF를 보강하는 제약된 선호 최적화(CPO)를 도입한다. 또한, 소프트 마진 랭킹을 통한 기하학적 해석을 제공하여 DPO가 잠재적으로 음수 목표를 갖는 마진 랭킹을 구현함을 밝힌다. 이론적 분석을 통해 DPO의 보장이 성립하는 조건을 규명하고, 단순성을 유지하면서 증명 가능한 일치를 제공하는 해결책을 제시한다. 표준 벤치마크에 대한 포괄적인 실험을 통해 CPO가 최첨단 성능을 달성함을 입증한다. 코드는 https://github.com/visitworld123/CPO에서 확인할 수 있다.
English
Direct Preference Optimization (DPO) has emerged as a popular alternative to Reinforcement Learning from Human Feedback (RLHF), offering theoretical equivalence with simpler implementation. We prove this equivalence is conditional rather than universal, depending on an implicit assumption frequently violated in practice: the RLHF-optimal policy must prefer human-preferred responses. When this assumption fails, DPO optimizes relative advantage over the reference policy rather than absolute alignment with human preferences, leading to pathological convergence where policies decrease DPO loss while preferring dispreferred responses. We characterize when this assumption is violated, show the existence of an undesirable solution space, and prove that DPO and RLHF optimize fundamentally different objectives in such cases. To address this, we introduce Constrained Preference Optimization (CPO), augmenting RLHF with constraints for provable alignment. We further provide a geometric interpretation through soft margin ranking, revealing that DPO implements margin ranking with potentially negative targets. Our theoretical analysis establishes when DPOs' guarantees hold and provides solutions preserving simplicity with provable alignment. Comprehensive experiments on standard benchmarks demonstrate that CPO achieves state-of-the-art performance. Code is available at: https://github.com/visitworld123/CPO.