DPO Adaptativo al Margen: Aprovechamiento del Modelo de Recompensa para un Control Granular en la Optimización de Preferencias
Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization
October 6, 2025
Autores: Hyung Gyu Rho
cs.AI
Resumen
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) ha surgido como un método simple y efectivo para alinear modelos de lenguaje de gran escala. Sin embargo, su dependencia de un parámetro de temperatura fijo conduce a un entrenamiento subóptimo en datos de preferencias diversos, causando sobreajuste en ejemplos fáciles y un aprendizaje insuficiente en aquellos informativos. Recientemente, han surgido métodos para contrarrestar esto. Mientras que IPO aborda el sobreajuste general, su regularización uniforme puede ser excesivamente conservadora. El enfoque más específico de beta-DPO sufre sus propias limitaciones: su adaptación a nivel de lote aplica una única temperatura comprometida a pares de márgenes mixtos, su regla de actualización lineal puede producir valores negativos de beta inestables, y su mecanismo de filtrado descarta señales de entrenamiento potencialmente útiles. En este trabajo, presentamos la Optimización Directa de Preferencias Adaptativa al Margen (MADPO), un método que ofrece una solución estable, que preserva los datos y opera a nivel de instancia. MADPO emplea un enfoque práctico de dos pasos: primero entrena un modelo de recompensa para estimar los márgenes de preferencia y luego utiliza estos márgenes para aplicar un peso continuo y adaptativo a la pérdida de DPO para cada muestra de entrenamiento individual. Este esquema de reponderación crea un margen objetivo efectivo que se amplifica para pares difíciles y se atenúa para pares fáciles, permitiendo un control granular sobre la señal de aprendizaje. Proporcionamos un análisis teórico completo, demostrando que MADPO tiene un paisaje de optimización bien comportado y es robusto a errores de estimación del modelo de recompensa. Validamos nuestra teoría con experimentos en una tarea de generación de sentimientos, donde MADPO supera consistentemente y de manera significativa a los métodos de referencia en conjuntos de datos de calidad variable. Logra mejoras de rendimiento de hasta +33.3\% en datos de Alta Calidad y +10.5\% en datos de Baja Calidad sobre el siguiente mejor método. Nuestros resultados establecen a MADPO como un enfoque más robusto y fundamentado para la alineación de preferencias.
English
Direct Preference Optimization (DPO) has emerged as a simple and effective
method for aligning large language models. However, its reliance on a fixed
temperature parameter leads to suboptimal training on diverse preference data,
causing overfitting on easy examples and under-learning from informative ones.
Recent methods have emerged to counter this. While IPO addresses general
overfitting, its uniform regularization can be overly conservative. The more
targeted approach of beta-DPO suffers from its own limitations: its
batch-level adaptation applies a single, compromised temperature to
mixed-margin pairs, its linear update rule can produce unstable negative
beta values, and its filtering mechanism discards potentially useful
training signals. In this work, we introduce Margin-Adaptive Direct Preference
Optimization (MADPO), a method that provides a stable, data-preserving, and
instance-level solution. MADPO employs a practical two-step approach: it first
trains a reward model to estimate preference margins and then uses these
margins to apply a continuous, adaptive weight to the DPO loss for each
individual training sample. This re-weighting scheme creates an effective
target margin that is amplified for hard pairs and dampened for easy pairs,
allowing for granular control over the learning signal. We provide a
comprehensive theoretical analysis, proving that MADPO has a well-behaved
optimization landscape and is robust to reward model estimation errors. We
validate our theory with experiments on a sentiment generation task, where
MADPO consistently and significantly outperforms strong baselines across
datasets of varying quality. It achieves performance gains of up to +33.3\% on
High Quality data and +10.5\% on Low Quality data over the next-best method.
Our results establish MADPO as a more robust and principled approach to
preference alignment.