Margin Adaptive DPO: Sfruttare il Modello di Ricompensa per un Controllo Granulare nell'Ottimizzazione delle Preferenze
Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization
October 6, 2025
Autori: Hyung Gyu Rho
cs.AI
Abstract
L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) è emersa come un metodo semplice ed efficace per allineare i modelli linguistici di grandi dimensioni. Tuttavia, la sua dipendenza da un parametro di temperatura fisso porta a un addestramento subottimale su dati di preferenza eterogenei, causando un overfitting sugli esempi facili e un apprendimento insufficiente da quelli informativi. Recentemente sono emersi metodi per contrastare questo problema. Mentre l'IPO affronta l'overfitting generale, la sua regolarizzazione uniforme può risultare eccessivamente conservativa. L'approccio più mirato del beta-DPO soffre di limitazioni intrinseche: il suo adattamento a livello di batch applica una singola temperatura compromessa a coppie con margini misti, la sua regola di aggiornamento lineare può produrre valori beta negativi instabili e il suo meccanismo di filtraggio scarta segnali di addestramento potenzialmente utili. In questo lavoro, introduciamo l'Ottimizzazione Diretta delle Preferenze con Margine Adattivo (Margin-Adaptive Direct Preference Optimization, MADPO), un metodo che fornisce una soluzione stabile, conservativa dei dati e a livello di istanza. MADPO utilizza un approccio pratico in due fasi: prima addestra un modello di ricompensa per stimare i margini di preferenza e poi impiega questi margini per applicare un peso continuo e adattivo alla perdita DPO per ciascun campione di addestramento. Questo schema di ri-ponderazione crea un margine target efficace che viene amplificato per le coppie difficili e attenuato per quelle facili, consentendo un controllo granulare sul segnale di apprendimento. Forniamo un'analisi teorica completa, dimostrando che MADPO ha un paesaggio di ottimizzazione ben comportato ed è robusto agli errori di stima del modello di ricompensa. Convalidiamo la nostra teoria con esperimenti su un task di generazione del sentimento, dove MADPO supera costantemente e significativamente i baseline robusti su dataset di qualità variabile. Raggiunge miglioramenti delle prestazioni fino al +33,3% su dati di Alta Qualità e al +10,5% su dati di Bassa Qualità rispetto al metodo migliore successivo. I nostri risultati stabiliscono MADPO come un approccio più robusto e principiato per l'allineamento delle preferenze.
English
Direct Preference Optimization (DPO) has emerged as a simple and effective
method for aligning large language models. However, its reliance on a fixed
temperature parameter leads to suboptimal training on diverse preference data,
causing overfitting on easy examples and under-learning from informative ones.
Recent methods have emerged to counter this. While IPO addresses general
overfitting, its uniform regularization can be overly conservative. The more
targeted approach of beta-DPO suffers from its own limitations: its
batch-level adaptation applies a single, compromised temperature to
mixed-margin pairs, its linear update rule can produce unstable negative
beta values, and its filtering mechanism discards potentially useful
training signals. In this work, we introduce Margin-Adaptive Direct Preference
Optimization (MADPO), a method that provides a stable, data-preserving, and
instance-level solution. MADPO employs a practical two-step approach: it first
trains a reward model to estimate preference margins and then uses these
margins to apply a continuous, adaptive weight to the DPO loss for each
individual training sample. This re-weighting scheme creates an effective
target margin that is amplified for hard pairs and dampened for easy pairs,
allowing for granular control over the learning signal. We provide a
comprehensive theoretical analysis, proving that MADPO has a well-behaved
optimization landscape and is robust to reward model estimation errors. We
validate our theory with experiments on a sentiment generation task, where
MADPO consistently and significantly outperforms strong baselines across
datasets of varying quality. It achieves performance gains of up to +33.3\% on
High Quality data and +10.5\% on Low Quality data over the next-best method.
Our results establish MADPO as a more robust and principled approach to
preference alignment.