reWordBench: Evaluación y Mejora de la Robustez de Modelos de Recompensa con Entradas Transformadas
reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs
March 14, 2025
Autores: Zhaofeng Wu, Michihiro Yasunaga, Andrew Cohen, Yoon Kim, Asli Celikyilmaz, Marjan Ghazvininejad
cs.AI
Resumen
Los modelos de recompensa se han convertido en un elemento fundamental en el procesamiento del lenguaje natural (PLN) moderno, sirviendo no solo como evaluadores de texto escalables, sino también como un componente indispensable en muchas recetas de alineación y algoritmos de inferencia en tiempo real. Sin embargo, aunque los modelos de recompensa recientes mejoran el rendimiento en los puntos de referencia estándar, esto puede deberse en parte a efectos de sobreajuste, lo que dificultaría la comprensión de su verdadera capacidad. En este trabajo, examinamos la robustez de los modelos de recompensa y el alcance de dicho sobreajuste. Construimos **reWordBench**, que transforma sistemáticamente las entradas de los modelos de recompensa de maneras que preservan el significado o el orden de clasificación. Demostramos que los modelos de recompensa de última generación sufren una degradación sustancial del rendimiento incluso con transformaciones menores en las entradas, a veces cayendo a una precisión significativamente inferior al azar, lo que sugiere fragilidad. Para mejorar la robustez de los modelos de recompensa, proponemos entrenarlos explícitamente para asignar puntuaciones similares a las paráfrasis, y encontramos que este enfoque también mejora la robustez frente a otros tipos distintos de transformaciones. Por ejemplo, nuestro modelo de recompensa robusto reduce dicha degradación aproximadamente a la mitad para el subconjunto Chat Hard en RewardBench. Además, cuando se utilizan en la alineación, nuestros modelos de recompensa robustos demuestran una mejor utilidad y generan salidas de mayor calidad, ganando en hasta el 59% de los casos frente a un modelo de recompensa entrenado de manera estándar.
English
Reward models have become a staple in modern NLP, serving as not only a
scalable text evaluator, but also an indispensable component in many alignment
recipes and inference-time algorithms. However, while recent reward models
increase performance on standard benchmarks, this may partly be due to
overfitting effects, which would confound an understanding of their true
capability. In this work, we scrutinize the robustness of reward models and the
extent of such overfitting. We build **reWordBench**, which systematically
transforms reward model inputs in meaning- or ranking-preserving ways. We show
that state-of-the-art reward models suffer from substantial performance
degradation even with minor input transformations, sometimes dropping to
significantly below-random accuracy, suggesting brittleness. To improve reward
model robustness, we propose to explicitly train them to assign similar scores
to paraphrases, and find that this approach also improves robustness to other
distinct kinds of transformations. For example, our robust reward model reduces
such degradation by roughly half for the Chat Hard subset in RewardBench.
Furthermore, when used in alignment, our robust reward models demonstrate
better utility and lead to higher-quality outputs, winning in up to 59% of
instances against a standardly trained RM.Summary
AI-Generated Summary