ChatPaper.aiChatPaper

Pré-DPO: Melhorando a Utilização de Dados na Otimização Direta de Preferências Usando um Modelo de Referência Orientador

Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model

April 22, 2025
Autores: Junshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang
cs.AI

Resumo

O Otimização Direta de Preferências (Direct Preference Optimization - DPO) simplifica o aprendizado por reforço a partir de feedback humano (Reinforcement Learning from Human Feedback - RLHF) para modelos de linguagem de grande escala (Large Language Models - LLMs) ao otimizar diretamente as preferências humanas sem a necessidade de um modelo explícito de recompensa. Descobrimos que, durante o treinamento do DPO, o modelo de referência atua como um ajustador de pesos dos dados. No entanto, a prática comum de inicializar os modelos de política e de referência de forma idêntica no DPO pode levar a uma utilização ineficiente dos dados e impor um limite de desempenho. Enquanto isso, a ausência de um modelo de referência na Otimização Simples de Preferências (Simple Preference Optimization - SimPO) reduz a robustez do treinamento e exige condições mais rigorosas para evitar o esquecimento catastrófico. Neste trabalho, propomos o Pre-DPO, um paradigma de treinamento baseado no DPO, simples porém eficaz, que melhora o desempenho da otimização de preferências ao aproveitar um modelo de referência orientador. Esse modelo de referência fornece uma visão antecipada do estado de política ótima alcançável por meio dos dados de preferência de treinamento, servindo como um mecanismo orientador que atribui pesos mais altos de forma adaptativa às amostras mais adequadas ao modelo e pesos mais baixos àquelas menos adequadas. Experimentos extensivos nos benchmarks AlpacaEval 2.0 e Arena-Hard v0.1 demonstram que o Pre-DPO melhora consistentemente o desempenho tanto do DPO quanto do SimPO, sem depender de modelos externos ou dados adicionais.
English
Direct Preference Optimization (DPO) simplifies reinforcement learning from human feedback (RLHF) for large language models (LLMs) by directly optimizing human preferences without an explicit reward model. We find that during DPO training, the reference model plays the role of a data weight adjuster. However, the common practice of initializing the policy and reference models identically in DPO can lead to inefficient data utilization and impose a performance ceiling. Meanwhile, the lack of a reference model in Simple Preference Optimization (SimPO) reduces training robustness and necessitates stricter conditions to prevent catastrophic forgetting. In this work, we propose Pre-DPO, a simple yet effective DPO-based training paradigm that enhances preference optimization performance by leveraging a guiding reference model. This reference model provides foresight into the optimal policy state achievable through the training preference data, serving as a guiding mechanism that adaptively assigns higher weights to samples more suitable for the model and lower weights to those less suitable. Extensive experiments on AlpacaEval 2.0 and Arena-Hard v0.1 benchmarks demonstrate that Pre-DPO consistently improves the performance of both DPO and SimPO, without relying on external models or additional data.

Summary

AI-Generated Summary

PDF182April 24, 2025