RRM: El Entrenamiento del Modelo de Recompensa Robusto Mitiga la Manipulación de Recompensas
RRM: Robust Reward Model Training Mitigates Reward Hacking
September 20, 2024
Autores: Tianqi Liu, Wei Xiong, Jie Ren, Lichang Chen, Junru Wu, Rishabh Joshi, Yang Gao, Jiaming Shen, Zhen Qin, Tianhe Yu, Daniel Sohn, Anastasiia Makarova, Jeremiah Liu, Yuan Liu, Bilal Piot, Abe Ittycheriah, Aviral Kumar, Mohammad Saleh
cs.AI
Resumen
Los modelos de recompensa (RMs) desempeñan un papel fundamental en alinear los grandes modelos de lenguaje (LLMs) con las preferencias humanas. Sin embargo, el entrenamiento tradicional de RM, que se basa en pares de respuestas vinculados a indicaciones específicas, lucha por desentrañar las preferencias impulsadas por las indicaciones de los artefactos independientes de la indicación, como la longitud y el formato de la respuesta. En este trabajo, exponemos una limitación fundamental de los métodos actuales de entrenamiento de RM, donde los RMs no logran distinguir de manera efectiva entre las señales contextuales y los artefactos irrelevantes al determinar preferencias. Para abordar esto, introducimos un marco causal que aprende preferencias independientes de estos artefactos y proponemos una novedosa técnica de aumento de datos diseñada para eliminarlos. Experimentos extensos muestran que nuestro enfoque filtra con éxito los artefactos no deseados, produciendo un modelo de recompensa más robusto (RRM). Nuestro RRM mejora el rendimiento de un modelo de recompensa por pares entrenado en Gemma-2-9b-it, en RewardBench, aumentando la precisión del 80.61% al 84.15%. Además, entrenamos dos políticas DPO utilizando tanto el RM como el RRM, demostrando que el RRM mejora significativamente las políticas alineadas con DPO, mejorando las puntuaciones de MT-Bench de 7.27 a 8.31 y las tasas de victorias controladas por longitud en AlpacaEval-2 del 33.46% al 52.49%.
English
Reward models (RMs) play a pivotal role in aligning large language models
(LLMs) with human preferences. However, traditional RM training, which relies
on response pairs tied to specific prompts, struggles to disentangle
prompt-driven preferences from prompt-independent artifacts, such as response
length and format. In this work, we expose a fundamental limitation of current
RM training methods, where RMs fail to effectively distinguish between
contextual signals and irrelevant artifacts when determining preferences. To
address this, we introduce a causal framework that learns preferences
independent of these artifacts and propose a novel data augmentation technique
designed to eliminate them. Extensive experiments show that our approach
successfully filters out undesirable artifacts, yielding a more robust reward
model (RRM). Our RRM improves the performance of a pairwise reward model
trained on Gemma-2-9b-it, on RewardBench, increasing accuracy from 80.61% to
84.15%. Additionally, we train two DPO policies using both the RM and RRM,
demonstrating that the RRM significantly enhances DPO-aligned policies,
improving MT-Bench scores from 7.27 to 8.31 and length-controlled win-rates in
AlpacaEval-2 from 33.46% to 52.49%.Summary
AI-Generated Summary