Pré-DPO : Amélioration de l'utilisation des données dans l'optimisation directe des préférences grâce à un modèle de référence guidant
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model
April 22, 2025
Auteurs: Junshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang
cs.AI
Résumé
L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) simplifie l'apprentissage par renforcement à partir de retours humains (Reinforcement Learning from Human Feedback, RLHF) pour les grands modèles de langage (Large Language Models, LLMs) en optimisant directement les préférences humaines sans recourir à un modèle de récompense explicite. Nous constatons que, lors de l'entraînement DPO, le modèle de référence joue le rôle d'un ajusteur de pondération des données. Cependant, la pratique courante consistant à initialiser les modèles de politique et de référence de manière identique dans DPO peut entraîner une utilisation inefficace des données et imposer un plafond de performance. Par ailleurs, l'absence de modèle de référence dans l'Optimisation Simple des Préférences (Simple Preference Optimization, SimPO) réduit la robustesse de l'entraînement et nécessite des conditions plus strictes pour éviter l'oubli catastrophique. Dans ce travail, nous proposons Pre-DPO, un paradigme d'entraînement basé sur DPO, simple mais efficace, qui améliore la performance de l'optimisation des préférences en exploitant un modèle de référence guide. Ce modèle de référence offre une vision prospective de l'état optimal de la politique réalisable grâce aux données de préférences d'entraînement, servant de mécanisme guide qui attribue de manière adaptative des poids plus élevés aux échantillons plus adaptés au modèle et des poids plus faibles à ceux qui le sont moins. Des expériences approfondies sur les benchmarks AlpacaEval 2.0 et Arena-Hard v0.1 démontrent que Pre-DPO améliore systématiquement les performances de DPO et SimPO, sans recourir à des modèles externes ou à des données supplémentaires.
English
Direct Preference Optimization (DPO) simplifies reinforcement learning from
human feedback (RLHF) for large language models (LLMs) by directly optimizing
human preferences without an explicit reward model. We find that during DPO
training, the reference model plays the role of a data weight adjuster.
However, the common practice of initializing the policy and reference models
identically in DPO can lead to inefficient data utilization and impose a
performance ceiling. Meanwhile, the lack of a reference model in Simple
Preference Optimization (SimPO) reduces training robustness and necessitates
stricter conditions to prevent catastrophic forgetting. In this work, we
propose Pre-DPO, a simple yet effective DPO-based training paradigm that
enhances preference optimization performance by leveraging a guiding reference
model. This reference model provides foresight into the optimal policy state
achievable through the training preference data, serving as a guiding mechanism
that adaptively assigns higher weights to samples more suitable for the model
and lower weights to those less suitable. Extensive experiments on AlpacaEval
2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently
improves the performance of both DPO and SimPO, without relying on external
models or additional data.Summary
AI-Generated Summary