Margin Adaptive DPO: Gebruik van het Beloningsmodel voor Nauwkeurige Controle in Voorkeursoptimalisatie
Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization
October 6, 2025
Auteurs: Hyung Gyu Rho
cs.AI
Samenvatting
Direct Preference Optimization (DPO) is naar voren gekomen als een eenvoudige en effectieve methode voor het afstemmen van grote taalmodellen. Echter, de afhankelijkheid van een vaste temperatuurparameter leidt tot suboptimale training op diverse voorkeursdata, wat resulteert in overfitting op eenvoudige voorbeelden en onderleren van informatieve voorbeelden. Recente methoden zijn ontwikkeld om dit tegen te gaan. Hoewel IPO algemene overfitting aanpakt, kan de uniforme regularisatie ervan te conservatief zijn. De meer gerichte aanpak van beta-DPO heeft zijn eigen beperkingen: de batchgewijze aanpassing past een enkele, gecompromitteerde temperatuur toe op gemengde-marge paren, de lineaire update-regel kan instabiele negatieve beta-waarden produceren, en het filtermechanisme verwijdert mogelijk nuttige trainingssignalen. In dit werk introduceren we Margin-Adaptive Direct Preference Optimization (MADPO), een methode die een stabiele, data-bewarende en instantiegewijze oplossing biedt. MADPO gebruikt een praktische tweestapsaanpak: het traint eerst een beloningsmodel om voorkeursmarges te schatten en gebruikt vervolgens deze marges om een continue, adaptieve gewichting toe te passen op de DPO-verliesfunctie voor elk individueel trainingsvoorbeeld. Dit herwegingenschema creëert een effectieve doel-marge die wordt versterkt voor moeilijke paren en gedempt voor eenvoudige paren, wat een gedetailleerde controle over het leersignaal mogelijk maakt. We bieden een uitgebreide theoretische analyse, waarin we aantonen dat MADPO een goed gedragd optimalisatielandschap heeft en robuust is tegen schattingsfouten van het beloningsmodel. We valideren onze theorie met experimenten op een sentimentgeneratietaak, waar MADPO consistent en significant beter presteert dan sterke baseline-methoden op datasets van uiteenlopende kwaliteit. Het behaalt prestatieverbeteringen van tot +33,3\% op Hoogwaardige data en +10,5\% op Laagwaardige data ten opzichte van de op een na beste methode. Onze resultaten vestigen MADPO als een robuustere en meer principiële aanpak voor voorkeursafstemming.
English
Direct Preference Optimization (DPO) has emerged as a simple and effective
method for aligning large language models. However, its reliance on a fixed
temperature parameter leads to suboptimal training on diverse preference data,
causing overfitting on easy examples and under-learning from informative ones.
Recent methods have emerged to counter this. While IPO addresses general
overfitting, its uniform regularization can be overly conservative. The more
targeted approach of beta-DPO suffers from its own limitations: its
batch-level adaptation applies a single, compromised temperature to
mixed-margin pairs, its linear update rule can produce unstable negative
beta values, and its filtering mechanism discards potentially useful
training signals. In this work, we introduce Margin-Adaptive Direct Preference
Optimization (MADPO), a method that provides a stable, data-preserving, and
instance-level solution. MADPO employs a practical two-step approach: it first
trains a reward model to estimate preference margins and then uses these
margins to apply a continuous, adaptive weight to the DPO loss for each
individual training sample. This re-weighting scheme creates an effective
target margin that is amplified for hard pairs and dampened for easy pairs,
allowing for granular control over the learning signal. We provide a
comprehensive theoretical analysis, proving that MADPO has a well-behaved
optimization landscape and is robust to reward model estimation errors. We
validate our theory with experiments on a sentiment generation task, where
MADPO consistently and significantly outperforms strong baselines across
datasets of varying quality. It achieves performance gains of up to +33.3\% on
High Quality data and +10.5\% on Low Quality data over the next-best method.
Our results establish MADPO as a more robust and principled approach to
preference alignment.