DPO Adaptatif aux Marges : Exploitation du Modèle de Récompense pour un Contrôle Granulaire dans l'Optimisation des Préférences
Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization
October 6, 2025
papers.authors: Hyung Gyu Rho
cs.AI
papers.abstract
L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) s'est imposée comme une méthode simple et efficace pour aligner les grands modèles de langage. Cependant, sa dépendance à un paramètre de température fixe entraîne un entraînement sous-optimal sur des données de préférences variées, provoquant un surajustement sur les exemples faciles et un sous-apprentissage sur les exemples informatifs. Des méthodes récentes ont émergé pour contrer cela. Bien que l'IPO (Iterative Preference Optimization) traite le surajustement général, sa régularisation uniforme peut être excessivement conservatrice. L'approche plus ciblée de la beta-DPO souffre de ses propres limites : son adaptation au niveau du lot applique une température unique et compromise à des paires à marges mixtes, sa règle de mise à jour linéaire peut produire des valeurs beta négatives instables, et son mécanisme de filtrage élimine des signaux d'entraînement potentiellement utiles. Dans ce travail, nous introduisons l'Optimisation Directe des Préférences Adaptative aux Marges (Margin-Adaptive Direct Preference Optimization, MADPO), une méthode qui offre une solution stable, préservant les données et opérant au niveau de chaque instance. MADPO utilise une approche pratique en deux étapes : elle entraîne d'abord un modèle de récompense pour estimer les marges de préférence, puis utilise ces marges pour appliquer un poids continu et adaptatif à la perte DPO pour chaque échantillon d'entraînement individuel. Ce schéma de réajustement crée une marge cible efficace qui est amplifiée pour les paires difficiles et atténuée pour les paires faciles, permettant un contrôle granulaire du signal d'apprentissage. Nous fournissons une analyse théorique complète, démontrant que MADPO possède un paysage d'optimisation bien comporté et est robuste aux erreurs d'estimation du modèle de récompense. Nous validons notre théorie par des expériences sur une tâche de génération de sentiments, où MADPO surpasse de manière constante et significative les méthodes de référence sur des ensembles de données de qualité variable. Elle atteint des gains de performance allant jusqu'à +33,3 % sur des données de haute qualité et +10,5 % sur des données de faible qualité par rapport à la meilleure méthode concurrente. Nos résultats établissent MADPO comme une approche plus robuste et plus rigoureuse pour l'alignement des préférences.
English
Direct Preference Optimization (DPO) has emerged as a simple and effective
method for aligning large language models. However, its reliance on a fixed
temperature parameter leads to suboptimal training on diverse preference data,
causing overfitting on easy examples and under-learning from informative ones.
Recent methods have emerged to counter this. While IPO addresses general
overfitting, its uniform regularization can be overly conservative. The more
targeted approach of beta-DPO suffers from its own limitations: its
batch-level adaptation applies a single, compromised temperature to
mixed-margin pairs, its linear update rule can produce unstable negative
beta values, and its filtering mechanism discards potentially useful
training signals. In this work, we introduce Margin-Adaptive Direct Preference
Optimization (MADPO), a method that provides a stable, data-preserving, and
instance-level solution. MADPO employs a practical two-step approach: it first
trains a reward model to estimate preference margins and then uses these
margins to apply a continuous, adaptive weight to the DPO loss for each
individual training sample. This re-weighting scheme creates an effective
target margin that is amplified for hard pairs and dampened for easy pairs,
allowing for granular control over the learning signal. We provide a
comprehensive theoretical analysis, proving that MADPO has a well-behaved
optimization landscape and is robust to reward model estimation errors. We
validate our theory with experiments on a sentiment generation task, where
MADPO consistently and significantly outperforms strong baselines across
datasets of varying quality. It achieves performance gains of up to +33.3\% on
High Quality data and +10.5\% on Low Quality data over the next-best method.
Our results establish MADPO as a more robust and principled approach to
preference alignment.