Условная эквивалентность DPO и RLHF: Неявное допущение, Режимы сбоев и Доказуемая сонастройка
Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment
May 20, 2026
Авторы: Zhiqin Yang, Yonggang Zhang, Wei Xue, Dong Fang, Bo Han, Yike Guo
cs.AI
Аннотация
Прямая оптимизация предпочтений (DPO) стала популярной альтернативой обучению с подкреплением на основе человеческой обратной связи (RLHF), предлагая теоретическую эквивалентность при более простой реализации. Мы доказываем, что эта эквивалентность является условной, а не универсальной, и зависит от неявного предположения, которое на практике часто нарушается: оптимальная политика RLHF должна предпочитать одобряемые человеком ответы. Когда это предположение не выполняется, DPO оптимизирует относительное преимущество по сравнению с эталонной политикой, а не абсолютное согласование с человеческими предпочтениями, что приводит к патологическому схождению, при котором политики уменьшают потери DPO, одновременно предпочитая неодобряемые ответы. Мы характеризуем условия, при которых это предположение нарушается, показываем существование нежелательного пространства решений и доказываем, что в таких случаях DPO и RLHF оптимизируют принципиально разные целевые функции. Для решения этой проблемы мы вводим Оптимизацию предпочтений с ограничениями (CPO), дополняющую RLHF ограничениями для обеспечения доказуемого согласования. Кроме того, мы предлагаем геометрическую интерпретацию через ранжирование с мягким зазором, показывая, что DPO реализует маржинальное ранжирование с потенциально отрицательными целевыми значениями. Наш теоретический анализ устанавливает, когда гарантии DPO выполняются, и предлагает решения, сохраняющие простоту при доказуемом согласовании. Комплексные эксперименты на стандартных бенчмарках демонстрируют, что CPO достигает современной производительности. Код доступен по адресу: https://github.com/visitworld123/CPO.
English
Direct Preference Optimization (DPO) has emerged as a popular alternative to Reinforcement Learning from Human Feedback (RLHF), offering theoretical equivalence with simpler implementation. We prove this equivalence is conditional rather than universal, depending on an implicit assumption frequently violated in practice: the RLHF-optimal policy must prefer human-preferred responses. When this assumption fails, DPO optimizes relative advantage over the reference policy rather than absolute alignment with human preferences, leading to pathological convergence where policies decrease DPO loss while preferring dispreferred responses. We characterize when this assumption is violated, show the existence of an undesirable solution space, and prove that DPO and RLHF optimize fundamentally different objectives in such cases. To address this, we introduce Constrained Preference Optimization (CPO), augmenting RLHF with constraints for provable alignment. We further provide a geometric interpretation through soft margin ranking, revealing that DPO implements margin ranking with potentially negative targets. Our theoretical analysis establishes when DPOs' guarantees hold and provides solutions preserving simplicity with provable alignment. Comprehensive experiments on standard benchmarks demonstrate that CPO achieves state-of-the-art performance. Code is available at: https://github.com/visitworld123/CPO.