ChatPaper.aiChatPaper

Pre-DPO: Miglioramento dell'Utilizzo dei Dati nell'Ottimizzazione Diretta delle Preferenze Utilizzando un Modello di Riferimento Guida

Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model

April 22, 2025
Autori: Junshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang
cs.AI

Abstract

L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) semplifica l'apprendimento per rinforzo basato sul feedback umano (Reinforcement Learning from Human Feedback, RLHF) per i grandi modelli linguistici (Large Language Models, LLMs) ottimizzando direttamente le preferenze umane senza un modello esplicito di ricompensa. Durante l'addestramento DPO, osserviamo che il modello di riferimento funge da regolatore del peso dei dati. Tuttavia, la pratica comune di inizializzare il modello di politica e il modello di riferimento in modo identico nel DPO può portare a un utilizzo inefficiente dei dati e imporre un limite alle prestazioni. Nel frattempo, l'assenza di un modello di riferimento nell'ottimizzazione semplice delle preferenze (Simple Preference Optimization, SimPO) riduce la robustezza dell'addestramento e richiede condizioni più rigorose per prevenire l'oblio catastrofico. In questo lavoro, proponiamo Pre-DPO, un paradigma di addestramento basato su DPO semplice ma efficace che migliora le prestazioni dell'ottimizzazione delle preferenze sfruttando un modello di riferimento guida. Questo modello di riferimento fornisce una visione anticipata dello stato ottimale della politica raggiungibile attraverso i dati di preferenza di addestramento, fungendo da meccanismo guida che assegna in modo adattivo pesi più alti ai campioni più adatti al modello e pesi più bassi a quelli meno adatti. Esperimenti estensivi sui benchmark AlpacaEval 2.0 e Arena-Hard v0.1 dimostrano che Pre-DPO migliora costantemente le prestazioni sia di DPO che di SimPO, senza fare affidamento su modelli esterni o dati aggiuntivi.
English
Direct Preference Optimization (DPO) simplifies reinforcement learning from human feedback (RLHF) for large language models (LLMs) by directly optimizing human preferences without an explicit reward model. We find that during DPO training, the reference model plays the role of a data weight adjuster. However, the common practice of initializing the policy and reference models identically in DPO can lead to inefficient data utilization and impose a performance ceiling. Meanwhile, the lack of a reference model in Simple Preference Optimization (SimPO) reduces training robustness and necessitates stricter conditions to prevent catastrophic forgetting. In this work, we propose Pre-DPO, a simple yet effective DPO-based training paradigm that enhances preference optimization performance by leveraging a guiding reference model. This reference model provides foresight into the optimal policy state achievable through the training preference data, serving as a guiding mechanism that adaptively assigns higher weights to samples more suitable for the model and lower weights to those less suitable. Extensive experiments on AlpacaEval 2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently improves the performance of both DPO and SimPO, without relying on external models or additional data.

Summary

AI-Generated Summary

PDF182April 24, 2025