Margin Adaptive DPO: Aproveitando o Modelo de Recompensa para Controle Granular na Otimização de Preferências
Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization
October 6, 2025
Autores: Hyung Gyu Rho
cs.AI
Resumo
O Otimização Direta de Preferências (Direct Preference Optimization - DPO) surgiu como um método simples e eficaz para alinhar grandes modelos de linguagem. No entanto, sua dependência de um parâmetro de temperatura fixo leva a um treinamento subótimo em dados de preferência diversos, causando sobreajuste em exemplos fáceis e subaprendizado em exemplos informativos. Métodos recentes surgiram para contornar esse problema. Enquanto o IPO aborda o sobreajuste geral, sua regularização uniforme pode ser excessivamente conservadora. A abordagem mais direcionada do beta-DPO sofre com suas próprias limitações: sua adaptação em nível de lote aplica uma única temperatura comprometida a pares de margens mistas, sua regra de atualização linear pode produzir valores negativos de beta instáveis, e seu mecanismo de filtragem descarta sinais de treinamento potencialmente úteis. Neste trabalho, introduzimos a Otimização Direta de Preferências com Margem Adaptativa (Margin-Adaptive Direct Preference Optimization - MADPO), um método que oferece uma solução estável, que preserva dados e opera em nível de instância. O MADPO emprega uma abordagem prática em duas etapas: primeiro, treina um modelo de recompensa para estimar as margens de preferência e, em seguida, usa essas margens para aplicar um peso contínuo e adaptativo à perda do DPO para cada amostra de treinamento individual. Esse esquema de reponderação cria uma margem alvo eficaz que é amplificada para pares difíceis e atenuada para pares fáceis, permitindo um controle granular sobre o sinal de aprendizado. Fornecemos uma análise teórica abrangente, provando que o MADPO tem um cenário de otimização bem comportado e é robusto a erros de estimativa do modelo de recompensa. Validamos nossa teoria com experimentos em uma tarefa de geração de sentimento, onde o MADPO supera consistentemente e significativamente as linhas de base fortes em conjuntos de dados de qualidade variável. Ele alcança ganhos de desempenho de até +33,3% em dados de Alta Qualidade e +10,5% em dados de Baixa Qualidade em relação ao próximo melhor método. Nossos resultados estabelecem o MADPO como uma abordagem mais robusta e fundamentada para o alinhamento de preferências.
English
Direct Preference Optimization (DPO) has emerged as a simple and effective
method for aligning large language models. However, its reliance on a fixed
temperature parameter leads to suboptimal training on diverse preference data,
causing overfitting on easy examples and under-learning from informative ones.
Recent methods have emerged to counter this. While IPO addresses general
overfitting, its uniform regularization can be overly conservative. The more
targeted approach of beta-DPO suffers from its own limitations: its
batch-level adaptation applies a single, compromised temperature to
mixed-margin pairs, its linear update rule can produce unstable negative
beta values, and its filtering mechanism discards potentially useful
training signals. In this work, we introduce Margin-Adaptive Direct Preference
Optimization (MADPO), a method that provides a stable, data-preserving, and
instance-level solution. MADPO employs a practical two-step approach: it first
trains a reward model to estimate preference margins and then uses these
margins to apply a continuous, adaptive weight to the DPO loss for each
individual training sample. This re-weighting scheme creates an effective
target margin that is amplified for hard pairs and dampened for easy pairs,
allowing for granular control over the learning signal. We provide a
comprehensive theoretical analysis, proving that MADPO has a well-behaved
optimization landscape and is robust to reward model estimation errors. We
validate our theory with experiments on a sentiment generation task, where
MADPO consistently and significantly outperforms strong baselines across
datasets of varying quality. It achieves performance gains of up to +33.3\% on
High Quality data and +10.5\% on Low Quality data over the next-best method.
Our results establish MADPO as a more robust and principled approach to
preference alignment.