ChatPaper.aiChatPaper

Margin Adaptive DPO: Использование модели вознаграждения для детального управления в оптимизации предпочтений

Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization

October 6, 2025
Авторы: Hyung Gyu Rho
cs.AI

Аннотация

Direct Preference Optimization (DPO) зарекомендовал себя как простой и эффективный метод для согласования больших языковых моделей. Однако его зависимость от фиксированного параметра температуры приводит к неоптимальному обучению на разнообразных данных предпочтений, вызывая переобучение на простых примерах и недостаточное обучение на информативных. В последнее время появились методы для решения этой проблемы. Хотя IPO устраняет общее переобучение, его равномерная регуляризация может быть излишне консервативной. Более целенаправленный подход beta-DPO страдает от собственных ограничений: его адаптация на уровне пакетов применяет единый, компромиссный параметр температуры к парам со смешанными отступами, его линейное правило обновления может приводить к нестабильным отрицательным значениям бета, а его механизм фильтрации отбрасывает потенциально полезные сигналы обучения. В данной работе мы представляем Margin-Adaptive Direct Preference Optimization (MADPO) — метод, который предлагает стабильное, сохраняющее данные и адаптивное на уровне отдельных примеров решение. MADPO использует практический двухэтапный подход: сначала обучает модель вознаграждения для оценки отступов предпочтений, а затем применяет эти отступы для непрерывного и адаптивного взвешивания функции потерь DPO для каждого отдельного обучающего примера. Эта схема перевзвешивания создает эффективный целевой отступ, который усиливается для сложных пар и ослабляется для простых, обеспечивая детализированный контроль над сигналом обучения. Мы предоставляем всесторонний теоретический анализ, доказывая, что MADPO имеет хорошо структурированный ландшафт оптимизации и устойчив к ошибкам оценки модели вознаграждения. Мы подтверждаем нашу теорию экспериментами на задаче генерации сентимента, где MADPO стабильно и значительно превосходит сильные базовые методы на наборах данных различного качества. Он достигает прироста производительности до +33,3% на данных высокого качества и +10,5% на данных низкого качества по сравнению с лучшим из существующих методов. Наши результаты подтверждают, что MADPO является более надежным и принципиальным подходом к согласованию предпочтений.
English
Direct Preference Optimization (DPO) has emerged as a simple and effective method for aligning large language models. However, its reliance on a fixed temperature parameter leads to suboptimal training on diverse preference data, causing overfitting on easy examples and under-learning from informative ones. Recent methods have emerged to counter this. While IPO addresses general overfitting, its uniform regularization can be overly conservative. The more targeted approach of beta-DPO suffers from its own limitations: its batch-level adaptation applies a single, compromised temperature to mixed-margin pairs, its linear update rule can produce unstable negative beta values, and its filtering mechanism discards potentially useful training signals. In this work, we introduce Margin-Adaptive Direct Preference Optimization (MADPO), a method that provides a stable, data-preserving, and instance-level solution. MADPO employs a practical two-step approach: it first trains a reward model to estimate preference margins and then uses these margins to apply a continuous, adaptive weight to the DPO loss for each individual training sample. This re-weighting scheme creates an effective target margin that is amplified for hard pairs and dampened for easy pairs, allowing for granular control over the learning signal. We provide a comprehensive theoretical analysis, proving that MADPO has a well-behaved optimization landscape and is robust to reward model estimation errors. We validate our theory with experiments on a sentiment generation task, where MADPO consistently and significantly outperforms strong baselines across datasets of varying quality. It achieves performance gains of up to +33.3\% on High Quality data and +10.5\% on Low Quality data over the next-best method. Our results establish MADPO as a more robust and principled approach to preference alignment.
PDF52October 8, 2025