Pre-DPO: Улучшение использования данных в оптимизации прямых предпочтений с использованием направляющей эталонной модели
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model
April 22, 2025
Авторы: Junshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang
cs.AI
Аннотация
Оптимизация прямых предпочтений (Direct Preference Optimization, DPO) упрощает обучение с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF) для больших языковых моделей (Large Language Models, LLMs), напрямую оптимизируя человеческие предпочтения без явной модели вознаграждения. Мы обнаружили, что в процессе обучения DPO эталонная модель выполняет роль регулятора весов данных. Однако распространённая практика инициализации политики и эталонной модели одинаковыми параметрами в DPO может привести к неэффективному использованию данных и установить потолок производительности. В то же время отсутствие эталонной модели в Simple Preference Optimization (SimPO) снижает устойчивость обучения и требует более строгих условий для предотвращения катастрофического забывания. В данной работе мы предлагаем Pre-DPO, простую, но эффективную парадигму обучения на основе DPO, которая улучшает оптимизацию предпочтений за счёт использования направляющей эталонной модели. Эта модель предоставляет предварительное представление о оптимальном состоянии политики, достижимом с помощью данных предпочтений обучения, выступая в качестве механизма направляющего адаптивного назначения более высоких весов образцам, более подходящим для модели, и более низких весов — менее подходящим. Многочисленные эксперименты на бенчмарках AlpacaEval 2.0 и Arena-Hard v0.1 демонстрируют, что Pre-DPO последовательно улучшает производительность как DPO, так и SimPO, не полагаясь на внешние модели или дополнительные данные.
English
Direct Preference Optimization (DPO) simplifies reinforcement learning from
human feedback (RLHF) for large language models (LLMs) by directly optimizing
human preferences without an explicit reward model. We find that during DPO
training, the reference model plays the role of a data weight adjuster.
However, the common practice of initializing the policy and reference models
identically in DPO can lead to inefficient data utilization and impose a
performance ceiling. Meanwhile, the lack of a reference model in Simple
Preference Optimization (SimPO) reduces training robustness and necessitates
stricter conditions to prevent catastrophic forgetting. In this work, we
propose Pre-DPO, a simple yet effective DPO-based training paradigm that
enhances preference optimization performance by leveraging a guiding reference
model. This reference model provides foresight into the optimal policy state
achievable through the training preference data, serving as a guiding mechanism
that adaptively assigns higher weights to samples more suitable for the model
and lower weights to those less suitable. Extensive experiments on AlpacaEval
2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently
improves the performance of both DPO and SimPO, without relying on external
models or additional data.Summary
AI-Generated Summary