Leyes de Escalado para la Sobreoptimización de Modelos de Recompensa en Algoritmos de Alineación Directa

Resumen

El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) ha sido crucial para el reciente éxito de los Modelos de Lenguaje a Gran Escala (LLMs), aunque a menudo es un proceso complejo y frágil. En el marco clásico de RLHF, primero se entrena un modelo de recompensa para representar las preferencias humanas, el cual a su vez es utilizado por un algoritmo de aprendizaje por refuerzo (RL) en línea para optimizar el LLM. Un problema destacado de estos métodos es la sobreoptimización de la recompensa o el "hackeo de recompensas", donde el rendimiento medido por el modelo de recompensa proxy aprendido aumenta, pero la calidad real se estanca o incluso se deteriora. Los Algoritmos de Alineación Directa (DAAs, por sus siglas en inglés), como la Optimización Directa de Preferencias, han surgido como alternativas al pipeline clásico de RLHF al evitar la fase de modelado de recompensas. Sin embargo, aunque los DAAs no utilizan un modelo de recompensa proxy separado, aún suelen deteriorarse debido a la sobreoptimización. Si bien el fenómeno llamado "hackeo de recompensas" no está bien definido para los DAAs, aún descubrimos tendencias similares: con presupuestos de KL más altos, los algoritmos DAA exhiben patrones de degradación similares a sus contrapartes clásicas de RLHF. En particular, encontramos que los métodos DAA se deterioran no solo en un amplio rango de presupuestos de KL, sino también, a menudo, antes de completar incluso una sola época del conjunto de datos. A través de una extensa experimentación empírica, este trabajo formula y formaliza el problema de sobreoptimización o hackeo de recompensas para los DAAs y explora sus consecuencias en diferentes objetivos, regímenes de entrenamiento y escalas de modelos.

English

Reinforcement Learning from Human Feedback (RLHF) has been crucial to the recent success of Large Language Models (LLMs), however, it is often a complex and brittle process. In the classical RLHF framework, a reward model is first trained to represent human preferences, which is in turn used by an online reinforcement learning (RL) algorithm to optimize the LLM. A prominent issue with such methods is reward over-optimization or reward hacking, where performance as measured by the learned proxy reward model increases, but true quality plateaus or even deteriorates. Direct Alignment Algorithms (DDAs) like Direct Preference Optimization have emerged as alternatives to the classical RLHF pipeline by circumventing the reward modeling phase. However, although DAAs do not use a separate proxy reward model, they still commonly deteriorate from over-optimization. While the so-called reward hacking phenomenon is not well-defined for DAAs, we still uncover similar trends: at higher KL budgets, DAA algorithms exhibit similar degradation patterns to their classic RLHF counterparts. In particular, we find that DAA methods deteriorate not only across a wide range of KL budgets but also often before even a single epoch of the dataset is completed. Through extensive empirical experimentation, this work formulates and formalizes the reward over-optimization or hacking problem for DAAs and explores its consequences across objectives, training regimes, and model scales.

Leyes de Escalado para la Sobreoptimización de Modelos de Recompensa en Algoritmos de Alineación Directa

Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms

Resumen

Support