Pre-DPO: Mejorando la Utilización de Datos en la Optimización Directa de Preferencias Mediante un Modelo de Referencia Guía
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model
April 22, 2025
Autores: Junshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang
cs.AI
Resumen
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) simplifica el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para modelos de lenguaje de gran escala (LLMs) al optimizar directamente las preferencias humanas sin necesidad de un modelo de recompensa explícito. Descubrimos que, durante el entrenamiento con DPO, el modelo de referencia actúa como un ajustador de pesos de los datos. Sin embargo, la práctica común de inicializar los modelos de política y referencia de manera idéntica en DPO puede llevar a una utilización ineficiente de los datos e imponer un límite en el rendimiento. Mientras tanto, la ausencia de un modelo de referencia en la Optimización Simple de Preferencias (SimPO) reduce la robustez del entrenamiento y exige condiciones más estrictas para evitar el olvido catastrófico. En este trabajo, proponemos Pre-DPO, un paradigma de entrenamiento basado en DPO simple pero efectivo que mejora el rendimiento de la optimización de preferencias al aprovechar un modelo de referencia guía. Este modelo de referencia proporciona una visión anticipada del estado óptimo de la política alcanzable a través de los datos de preferencias de entrenamiento, actuando como un mecanismo guía que asigna pesos más altos a las muestras más adecuadas para el modelo y pesos más bajos a aquellas menos adecuadas. Experimentos exhaustivos en los benchmarks AlpacaEval 2.0 y Arena-Hard v0.1 demuestran que Pre-DPO mejora consistentemente el rendimiento tanto de DPO como de SimPO, sin depender de modelos externos o datos adicionales.
English
Direct Preference Optimization (DPO) simplifies reinforcement learning from
human feedback (RLHF) for large language models (LLMs) by directly optimizing
human preferences without an explicit reward model. We find that during DPO
training, the reference model plays the role of a data weight adjuster.
However, the common practice of initializing the policy and reference models
identically in DPO can lead to inefficient data utilization and impose a
performance ceiling. Meanwhile, the lack of a reference model in Simple
Preference Optimization (SimPO) reduces training robustness and necessitates
stricter conditions to prevent catastrophic forgetting. In this work, we
propose Pre-DPO, a simple yet effective DPO-based training paradigm that
enhances preference optimization performance by leveraging a guiding reference
model. This reference model provides foresight into the optimal policy state
achievable through the training preference data, serving as a guiding mechanism
that adaptively assigns higher weights to samples more suitable for the model
and lower weights to those less suitable. Extensive experiments on AlpacaEval
2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently
improves the performance of both DPO and SimPO, without relying on external
models or additional data.Summary
AI-Generated Summary