RewardBench: Evaluación de Modelos de Recompensa para Modelado del Lenguaje
RewardBench: Evaluating Reward Models for Language Modeling
March 20, 2024
Autores: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Resumen
Los modelos de recompensa (RMs) son fundamentales para el éxito del Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) al alinear modelos preentrenados con las preferencias humanas, sin embargo, ha habido relativamente pocos estudios que se centren en la evaluación de dichos modelos de recompensa. Evaluar los modelos de recompensa presenta una oportunidad para comprender las tecnologías opacas utilizadas para la alineación de modelos de lenguaje y qué valores están incorporados en ellos. Hasta la fecha, existen muy pocos descriptores de capacidades, métodos de entrenamiento o modelos de recompensa de código abierto. En este artículo, presentamos RewardBench, un conjunto de datos de referencia y una base de código para la evaluación, con el fin de mejorar la comprensión científica de los modelos de recompensa. El conjunto de datos de RewardBench es una colección de tríos de indicaciones-ganar-perder que abarcan chat, razonamiento y seguridad, para evaluar cómo los modelos de recompensa se desempeñan en consultas desafiantes, estructuradas y fuera de distribución. Creamos conjuntos de datos de comparación específicos para RMs que tienen razones sutiles, pero verificables (por ejemplo, errores, hechos incorrectos) por las cuales una respuesta debería ser preferida sobre otra. En el tablero de líderes de RewardBench, evaluamos modelos de recompensa entrenados con una variedad de métodos, como el entrenamiento directo de clasificadores mediante Máxima Verosimilitud (MLE) y el modelado implícito de recompensas de la Optimización Directa de Preferencias (DPO), y en un espectro de conjuntos de datos. Presentamos muchos hallazgos sobre la propensión a las negativas, las limitaciones de razonamiento y las deficiencias en el seguimiento de instrucciones de varios modelos de recompensa, con el objetivo de comprender mejor el proceso de RLHF.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained
models to human preferences, yet there has been relatively little study that
focuses on evaluation of those reward models. Evaluating reward models presents
an opportunity to understand the opaque technologies used for alignment of
language models and which values are embedded in them. To date, very few
descriptors of capabilities, training methods, or open-source reward models
exist. In this paper, we present RewardBench, a benchmark dataset and code-base
for evaluation, to enhance scientific understanding of reward models. The
RewardBench dataset is a collection of prompt-win-lose trios spanning chat,
reasoning, and safety, to benchmark how reward models perform on challenging,
structured and out-of-distribution queries. We created specific comparison
datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect
facts) why one answer should be preferred to another. On the RewardBench
leaderboard, we evaluate reward models trained with a variety of methods, such
as the direct MLE training of classifiers and the implicit reward modeling of
Direct Preference Optimization (DPO), and on a spectrum of datasets. We present
many findings on propensity for refusals, reasoning limitations, and
instruction following shortcomings of various reward models towards a better
understanding of the RLHF process.Summary
AI-Generated Summary