Leyes de Escalado para la Sobreoptimización de Modelos de Recompensa en Algoritmos de Alineación Directa
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms
June 5, 2024
Autores: Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna, Bradley Knox, Chelsea Finn, Scott Niekum
cs.AI
Resumen
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) ha sido crucial para el reciente éxito de los Modelos de Lenguaje a Gran Escala (LLMs), aunque a menudo es un proceso complejo y frágil. En el marco clásico de RLHF, primero se entrena un modelo de recompensa para representar las preferencias humanas, el cual a su vez es utilizado por un algoritmo de aprendizaje por refuerzo (RL) en línea para optimizar el LLM. Un problema destacado de estos métodos es la sobreoptimización de la recompensa o el "hackeo de recompensas", donde el rendimiento medido por el modelo de recompensa proxy aprendido aumenta, pero la calidad real se estanca o incluso se deteriora. Los Algoritmos de Alineación Directa (DAAs, por sus siglas en inglés), como la Optimización Directa de Preferencias, han surgido como alternativas al pipeline clásico de RLHF al evitar la fase de modelado de recompensas. Sin embargo, aunque los DAAs no utilizan un modelo de recompensa proxy separado, aún suelen deteriorarse debido a la sobreoptimización. Si bien el fenómeno llamado "hackeo de recompensas" no está bien definido para los DAAs, aún descubrimos tendencias similares: con presupuestos de KL más altos, los algoritmos DAA exhiben patrones de degradación similares a sus contrapartes clásicas de RLHF. En particular, encontramos que los métodos DAA se deterioran no solo en un amplio rango de presupuestos de KL, sino también, a menudo, antes de completar incluso una sola época del conjunto de datos. A través de una extensa experimentación empírica, este trabajo formula y formaliza el problema de sobreoptimización o hackeo de recompensas para los DAAs y explora sus consecuencias en diferentes objetivos, regímenes de entrenamiento y escalas de modelos.
English
Reinforcement Learning from Human Feedback (RLHF) has been crucial to the
recent success of Large Language Models (LLMs), however, it is often a complex
and brittle process. In the classical RLHF framework, a reward model is first
trained to represent human preferences, which is in turn used by an online
reinforcement learning (RL) algorithm to optimize the LLM. A prominent issue
with such methods is reward over-optimization or reward hacking,
where performance as measured by the learned proxy reward model increases, but
true quality plateaus or even deteriorates. Direct Alignment Algorithms (DDAs)
like Direct Preference Optimization have emerged as alternatives to the
classical RLHF pipeline by circumventing the reward modeling phase. However,
although DAAs do not use a separate proxy reward model, they still commonly
deteriorate from over-optimization. While the so-called reward hacking
phenomenon is not well-defined for DAAs, we still uncover similar trends: at
higher KL budgets, DAA algorithms exhibit similar degradation patterns to their
classic RLHF counterparts. In particular, we find that DAA methods deteriorate
not only across a wide range of KL budgets but also often before even a single
epoch of the dataset is completed. Through extensive empirical experimentation,
this work formulates and formalizes the reward over-optimization or hacking
problem for DAAs and explores its consequences across objectives, training
regimes, and model scales.Summary
AI-Generated Summary