Margin Adaptive DPO: Nutzung des Belohnungsmodells für granulare Kontrolle in der Präferenzoptimierung
Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization
October 6, 2025
papers.authors: Hyung Gyu Rho
cs.AI
papers.abstract
Direct Preference Optimization (DPO) hat sich als einfache und effektive Methode zur Ausrichtung großer Sprachmodelle etabliert. Allerdings führt die Abhängigkeit von einem festen Temperaturparameter zu suboptimalem Training auf diversen Präferenzdaten, was zu Überanpassung bei einfachen Beispielen und unzureichendem Lernen aus informativen Beispielen führt. In jüngster Zeit wurden Methoden entwickelt, um dies zu beheben. Während IPO allgemeine Überanpassung adressiert, kann seine gleichmäßige Regularisierung zu konservativ sein. Der gezieltere Ansatz von Beta-DPO leidet unter eigenen Einschränkungen: Seine batchweise Anpassung wendet eine einzige, kompromisshafte Temperatur auf gemischte Margin-Paare an, seine lineare Aktualisierungsregel kann instabile negative Beta-Werte erzeugen, und sein Filtermechanismus verwirft potenziell nützliche Trainingssignale. In dieser Arbeit stellen wir Margin-Adaptive Direct Preference Optimization (MADPO) vor, eine Methode, die eine stabile, datenerhaltende und instanzspezifische Lösung bietet. MADPO verwendet einen praktischen zweistufigen Ansatz: Zuerst trainiert es ein Belohnungsmodell, um Präferenzmargen zu schätzen, und verwendet dann diese Margen, um einen kontinuierlichen, adaptiven Gewichtungsfaktor auf den DPO-Verlust für jedes einzelne Trainingsbeispiel anzuwenden. Dieses Neugewichtungsschema erzeugt eine effektive Zielmarge, die für schwierige Paare verstärkt und für einfache Paare gedämpft wird, was eine präzise Steuerung des Lernsignals ermöglicht. Wir liefern eine umfassende theoretische Analyse, die zeigt, dass MADPO einen gutartigen Optimierungsraum aufweist und robust gegenüber Schätzfehlern des Belohnungsmodells ist. Wir validieren unsere Theorie mit Experimenten zu einer Sentiment-Generierungsaufgabe, bei der MADPO durchweg und signifikant starke Baseline-Methoden auf Datensätzen unterschiedlicher Qualität übertrifft. Es erzielt Leistungssteigerungen von bis zu +33,3 % auf hochwertigen Daten und +10,5 % auf minderwertigen Daten im Vergleich zur nächstbesten Methode. Unsere Ergebnisse etablieren MADPO als einen robusteren und prinzipielleren Ansatz zur Präferenzausrichtung.
English
Direct Preference Optimization (DPO) has emerged as a simple and effective
method for aligning large language models. However, its reliance on a fixed
temperature parameter leads to suboptimal training on diverse preference data,
causing overfitting on easy examples and under-learning from informative ones.
Recent methods have emerged to counter this. While IPO addresses general
overfitting, its uniform regularization can be overly conservative. The more
targeted approach of beta-DPO suffers from its own limitations: its
batch-level adaptation applies a single, compromised temperature to
mixed-margin pairs, its linear update rule can produce unstable negative
beta values, and its filtering mechanism discards potentially useful
training signals. In this work, we introduce Margin-Adaptive Direct Preference
Optimization (MADPO), a method that provides a stable, data-preserving, and
instance-level solution. MADPO employs a practical two-step approach: it first
trains a reward model to estimate preference margins and then uses these
margins to apply a continuous, adaptive weight to the DPO loss for each
individual training sample. This re-weighting scheme creates an effective
target margin that is amplified for hard pairs and dampened for easy pairs,
allowing for granular control over the learning signal. We provide a
comprehensive theoretical analysis, proving that MADPO has a well-behaved
optimization landscape and is robust to reward model estimation errors. We
validate our theory with experiments on a sentiment generation task, where
MADPO consistently and significantly outperforms strong baselines across
datasets of varying quality. It achieves performance gains of up to +33.3\% on
High Quality data and +10.5\% on Low Quality data over the next-best method.
Our results establish MADPO as a more robust and principled approach to
preference alignment.