RRM: El Entrenamiento del Modelo de Recompensa Robusto Mitiga la Manipulación de Recompensas

Resumen

Los modelos de recompensa (RMs) desempeñan un papel fundamental en alinear los grandes modelos de lenguaje (LLMs) con las preferencias humanas. Sin embargo, el entrenamiento tradicional de RM, que se basa en pares de respuestas vinculados a indicaciones específicas, lucha por desentrañar las preferencias impulsadas por las indicaciones de los artefactos independientes de la indicación, como la longitud y el formato de la respuesta. En este trabajo, exponemos una limitación fundamental de los métodos actuales de entrenamiento de RM, donde los RMs no logran distinguir de manera efectiva entre las señales contextuales y los artefactos irrelevantes al determinar preferencias. Para abordar esto, introducimos un marco causal que aprende preferencias independientes de estos artefactos y proponemos una novedosa técnica de aumento de datos diseñada para eliminarlos. Experimentos extensos muestran que nuestro enfoque filtra con éxito los artefactos no deseados, produciendo un modelo de recompensa más robusto (RRM). Nuestro RRM mejora el rendimiento de un modelo de recompensa por pares entrenado en Gemma-2-9b-it, en RewardBench, aumentando la precisión del 80.61% al 84.15%. Además, entrenamos dos políticas DPO utilizando tanto el RM como el RRM, demostrando que el RRM mejora significativamente las políticas alineadas con DPO, mejorando las puntuaciones de MT-Bench de 7.27 a 8.31 y las tasas de victorias controladas por longitud en AlpacaEval-2 del 33.46% al 52.49%.

English

Reward models (RMs) play a pivotal role in aligning large language models (LLMs) with human preferences. However, traditional RM training, which relies on response pairs tied to specific prompts, struggles to disentangle prompt-driven preferences from prompt-independent artifacts, such as response length and format. In this work, we expose a fundamental limitation of current RM training methods, where RMs fail to effectively distinguish between contextual signals and irrelevant artifacts when determining preferences. To address this, we introduce a causal framework that learns preferences independent of these artifacts and propose a novel data augmentation technique designed to eliminate them. Extensive experiments show that our approach successfully filters out undesirable artifacts, yielding a more robust reward model (RRM). Our RRM improves the performance of a pairwise reward model trained on Gemma-2-9b-it, on RewardBench, increasing accuracy from 80.61% to 84.15%. Additionally, we train two DPO policies using both the RM and RRM, demonstrating that the RRM significantly enhances DPO-aligned policies, improving MT-Bench scores from 7.27 to 8.31 and length-controlled win-rates in AlpacaEval-2 from 33.46% to 52.49%.

RRM: El Entrenamiento del Modelo de Recompensa Robusto Mitiga la Manipulación de Recompensas

RRM: Robust Reward Model Training Mitigates Reward Hacking

Resumen

Support