Arranque de Modelos de Lenguaje con Recompensas Implícitas de DPO
Bootstrapping Language Models with DPO Implicit Rewards
June 14, 2024
Autores: Changyu Chen, Zichen Liu, Chao Du, Tianyu Pang, Qian Liu, Arunesh Sinha, Pradeep Varakantham, Min Lin
cs.AI
Resumen
La alineación humana en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es un área de investigación activa. Un trabajo reciente y revolucionario, la optimización directa de preferencias (DPO, por sus siglas en inglés), ha simplificado enormemente el proceso en comparación con trabajos anteriores en aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés), al omitir la etapa de aprendizaje de recompensas en RLHF. DPO, después del entrenamiento, proporciona un modelo de recompensas implícito. En este trabajo, hacemos una observación novedosa de que este modelo de recompensas implícito puede utilizarse por sí mismo de manera iterativa para alinear aún más el LLM. Nuestro enfoque consiste en utilizar las recompensas de un modelo LLM actual para construir un conjunto de datos de preferencias, que luego se utiliza en rondas posteriores de DPO. Incorporamos refinamientos que corrigen el sesgo en la longitud de las respuestas y mejoran la calidad del conjunto de datos de preferencias para optimizar aún más nuestro enfoque. Nuestro método, denominado autoalineación con recompensas implícitas de DPO (DICE, por sus siglas en inglés), muestra grandes mejoras en la alineación y logra un rendimiento superior al de Gemini Pro en AlpacaEval 2, alcanzando una tasa de victoria controlada por longitud del 27.55% frente a GPT-4 Turbo, pero con solo 8B de parámetros y sin retroalimentación externa. Nuestro código está disponible en https://github.com/sail-sg/dice.
English
Human alignment in large language models (LLMs) is an active area of
research. A recent groundbreaking work, direct preference optimization (DPO),
has greatly simplified the process from past work in reinforcement learning
from human feedback (RLHF) by bypassing the reward learning stage in RLHF. DPO,
after training, provides an implicit reward model. In this work, we make a
novel observation that this implicit reward model can by itself be used in a
bootstrapping fashion to further align the LLM. Our approach is to use the
rewards from a current LLM model to construct a preference dataset, which is
then used in subsequent DPO rounds. We incorporate refinements that debias the
length of the responses and improve the quality of the preference dataset to
further improve our approach. Our approach, named self-alignment with DPO
ImpliCit rEwards (DICE), shows great improvements in alignment and achieves
superior performance than Gemini Pro on AlpacaEval 2, reaching 27.55%
length-controlled win rate against GPT-4 Turbo, but with only 8B parameters and
no external feedback. Our code is available at https://github.com/sail-sg/dice.Summary
AI-Generated Summary