Equivalência Condicional de DPO e RLHF: Suposição Implícita, Modos de Falha e Alinhamento Comprovável

Resumo

A Otimização Direta de Preferências (DPO) emergiu como uma alternativa popular ao Aprendizado por Reforço a partir de Feedback Humano (RLHF), oferecendo equivalência teórica com implementação mais simples. Provamos que essa equivalência é condicional, e não universal, dependendo de uma suposição implícita frequentemente violada na prática: a política ótima do RLHF deve preferir respostas preferidas por humanos. Quando essa suposição falha, a DPO otimiza a vantagem relativa em relação à política de referência, e não o alinhamento absoluto com as preferências humanas, levando a uma convergência patológica onde as políticas reduzem a perda da DPO enquanto preferem respostas não preferidas. Caracterizamos quando essa suposição é violada, mostramos a existência de um espaço de soluções indesejável e provamos que a DPO e o RLHF otimizam objetivos fundamentalmente diferentes nesses casos. Para resolver isso, introduzimos a Otimização de Preferências Restrita (CPO), que aumenta o RLHF com restrições para alinhamento comprovável. Além disso, fornecemos uma interpretação geométrica por meio de ranqueamento de margem suave, revelando que a DPO implementa ranqueamento de margem com alvos potencialmente negativos. Nossa análise teórica estabelece quando as garantias da DPO são válidas e fornece soluções que preservam a simplicidade com alinhamento comprovável. Experimentos abrangentes em benchmarks padrão demonstram que a CPO atinge desempenho de estado da arte. O código está disponível em: https://github.com/visitworld123/CPO.

English

Direct Preference Optimization (DPO) has emerged as a popular alternative to Reinforcement Learning from Human Feedback (RLHF), offering theoretical equivalence with simpler implementation. We prove this equivalence is conditional rather than universal, depending on an implicit assumption frequently violated in practice: the RLHF-optimal policy must prefer human-preferred responses. When this assumption fails, DPO optimizes relative advantage over the reference policy rather than absolute alignment with human preferences, leading to pathological convergence where policies decrease DPO loss while preferring dispreferred responses. We characterize when this assumption is violated, show the existence of an undesirable solution space, and prove that DPO and RLHF optimize fundamentally different objectives in such cases. To address this, we introduce Constrained Preference Optimization (CPO), augmenting RLHF with constraints for provable alignment. We further provide a geometric interpretation through soft margin ranking, revealing that DPO implements margin ranking with potentially negative targets. Our theoretical analysis establishes when DPOs' guarantees hold and provides solutions preserving simplicity with provable alignment. Comprehensive experiments on standard benchmarks demonstrate that CPO achieves state-of-the-art performance. Code is available at: https://github.com/visitworld123/CPO.