Pré-DPO : Amélioration de l'utilisation des données dans l'optimisation directe des préférences grâce à un modèle de référence guidant

papers.abstract

L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) simplifie l'apprentissage par renforcement à partir de retours humains (Reinforcement Learning from Human Feedback, RLHF) pour les grands modèles de langage (Large Language Models, LLMs) en optimisant directement les préférences humaines sans recourir à un modèle de récompense explicite. Nous constatons que, lors de l'entraînement DPO, le modèle de référence joue le rôle d'un ajusteur de pondération des données. Cependant, la pratique courante consistant à initialiser les modèles de politique et de référence de manière identique dans DPO peut entraîner une utilisation inefficace des données et imposer un plafond de performance. Par ailleurs, l'absence de modèle de référence dans l'Optimisation Simple des Préférences (Simple Preference Optimization, SimPO) réduit la robustesse de l'entraînement et nécessite des conditions plus strictes pour éviter l'oubli catastrophique. Dans ce travail, nous proposons Pre-DPO, un paradigme d'entraînement basé sur DPO, simple mais efficace, qui améliore la performance de l'optimisation des préférences en exploitant un modèle de référence guide. Ce modèle de référence offre une vision prospective de l'état optimal de la politique réalisable grâce aux données de préférences d'entraînement, servant de mécanisme guide qui attribue de manière adaptative des poids plus élevés aux échantillons plus adaptés au modèle et des poids plus faibles à ceux qui le sont moins. Des expériences approfondies sur les benchmarks AlpacaEval 2.0 et Arena-Hard v0.1 démontrent que Pre-DPO améliore systématiquement les performances de DPO et SimPO, sans recourir à des modèles externes ou à des données supplémentaires.

English

Direct Preference Optimization (DPO) simplifies reinforcement learning from human feedback (RLHF) for large language models (LLMs) by directly optimizing human preferences without an explicit reward model. We find that during DPO training, the reference model plays the role of a data weight adjuster. However, the common practice of initializing the policy and reference models identically in DPO can lead to inefficient data utilization and impose a performance ceiling. Meanwhile, the lack of a reference model in Simple Preference Optimization (SimPO) reduces training robustness and necessitates stricter conditions to prevent catastrophic forgetting. In this work, we propose Pre-DPO, a simple yet effective DPO-based training paradigm that enhances preference optimization performance by leveraging a guiding reference model. This reference model provides foresight into the optimal policy state achievable through the training preference data, serving as a guiding mechanism that adaptively assigns higher weights to samples more suitable for the model and lower weights to those less suitable. Extensive experiments on AlpacaEval 2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently improves the performance of both DPO and SimPO, without relying on external models or additional data.

Pré-DPO : Amélioration de l'utilisation des données dans l'optimisation directe des préférences grâce à un modèle de référence guidant

Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model

papers.abstract

Support