reWordBench: Evaluación y Mejora de la Robustez de Modelos de Recompensa con Entradas Transformadas

Resumen

Los modelos de recompensa se han convertido en un elemento fundamental en el procesamiento del lenguaje natural (PLN) moderno, sirviendo no solo como evaluadores de texto escalables, sino también como un componente indispensable en muchas recetas de alineación y algoritmos de inferencia en tiempo real. Sin embargo, aunque los modelos de recompensa recientes mejoran el rendimiento en los puntos de referencia estándar, esto puede deberse en parte a efectos de sobreajuste, lo que dificultaría la comprensión de su verdadera capacidad. En este trabajo, examinamos la robustez de los modelos de recompensa y el alcance de dicho sobreajuste. Construimos **reWordBench**, que transforma sistemáticamente las entradas de los modelos de recompensa de maneras que preservan el significado o el orden de clasificación. Demostramos que los modelos de recompensa de última generación sufren una degradación sustancial del rendimiento incluso con transformaciones menores en las entradas, a veces cayendo a una precisión significativamente inferior al azar, lo que sugiere fragilidad. Para mejorar la robustez de los modelos de recompensa, proponemos entrenarlos explícitamente para asignar puntuaciones similares a las paráfrasis, y encontramos que este enfoque también mejora la robustez frente a otros tipos distintos de transformaciones. Por ejemplo, nuestro modelo de recompensa robusto reduce dicha degradación aproximadamente a la mitad para el subconjunto Chat Hard en RewardBench. Además, cuando se utilizan en la alineación, nuestros modelos de recompensa robustos demuestran una mejor utilidad y generan salidas de mayor calidad, ganando en hasta el 59% de los casos frente a un modelo de recompensa entrenado de manera estándar.

English

Reward models have become a staple in modern NLP, serving as not only a scalable text evaluator, but also an indispensable component in many alignment recipes and inference-time algorithms. However, while recent reward models increase performance on standard benchmarks, this may partly be due to overfitting effects, which would confound an understanding of their true capability. In this work, we scrutinize the robustness of reward models and the extent of such overfitting. We build **reWordBench**, which systematically transforms reward model inputs in meaning- or ranking-preserving ways. We show that state-of-the-art reward models suffer from substantial performance degradation even with minor input transformations, sometimes dropping to significantly below-random accuracy, suggesting brittleness. To improve reward model robustness, we propose to explicitly train them to assign similar scores to paraphrases, and find that this approach also improves robustness to other distinct kinds of transformations. For example, our robust reward model reduces such degradation by roughly half for the Chat Hard subset in RewardBench. Furthermore, when used in alignment, our robust reward models demonstrate better utility and lead to higher-quality outputs, winning in up to 59% of instances against a standardly trained RM.

reWordBench: Evaluación y Mejora de la Robustez de Modelos de Recompensa con Entradas Transformadas

reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs

Resumen

Support