ChatPaper.aiChatPaper

RewardBench: Evaluación de Modelos de Recompensa para Modelado del Lenguaje

RewardBench: Evaluating Reward Models for Language Modeling

March 20, 2024
Autores: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI

Resumen

Los modelos de recompensa (RMs) son fundamentales para el éxito del Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) al alinear modelos preentrenados con las preferencias humanas, sin embargo, ha habido relativamente pocos estudios que se centren en la evaluación de dichos modelos de recompensa. Evaluar los modelos de recompensa presenta una oportunidad para comprender las tecnologías opacas utilizadas para la alineación de modelos de lenguaje y qué valores están incorporados en ellos. Hasta la fecha, existen muy pocos descriptores de capacidades, métodos de entrenamiento o modelos de recompensa de código abierto. En este artículo, presentamos RewardBench, un conjunto de datos de referencia y una base de código para la evaluación, con el fin de mejorar la comprensión científica de los modelos de recompensa. El conjunto de datos de RewardBench es una colección de tríos de indicaciones-ganar-perder que abarcan chat, razonamiento y seguridad, para evaluar cómo los modelos de recompensa se desempeñan en consultas desafiantes, estructuradas y fuera de distribución. Creamos conjuntos de datos de comparación específicos para RMs que tienen razones sutiles, pero verificables (por ejemplo, errores, hechos incorrectos) por las cuales una respuesta debería ser preferida sobre otra. En el tablero de líderes de RewardBench, evaluamos modelos de recompensa entrenados con una variedad de métodos, como el entrenamiento directo de clasificadores mediante Máxima Verosimilitud (MLE) y el modelado implícito de recompensas de la Optimización Directa de Preferencias (DPO), y en un espectro de conjuntos de datos. Presentamos muchos hallazgos sobre la propensión a las negativas, las limitaciones de razonamiento y las deficiencias en el seguimiento de instrucciones de varios modelos de recompensa, con el objetivo de comprender mejor el proceso de RLHF.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained models to human preferences, yet there has been relatively little study that focuses on evaluation of those reward models. Evaluating reward models presents an opportunity to understand the opaque technologies used for alignment of language models and which values are embedded in them. To date, very few descriptors of capabilities, training methods, or open-source reward models exist. In this paper, we present RewardBench, a benchmark dataset and code-base for evaluation, to enhance scientific understanding of reward models. The RewardBench dataset is a collection of prompt-win-lose trios spanning chat, reasoning, and safety, to benchmark how reward models perform on challenging, structured and out-of-distribution queries. We created specific comparison datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect facts) why one answer should be preferred to another. On the RewardBench leaderboard, we evaluate reward models trained with a variety of methods, such as the direct MLE training of classifiers and the implicit reward modeling of Direct Preference Optimization (DPO), and on a spectrum of datasets. We present many findings on propensity for refusals, reasoning limitations, and instruction following shortcomings of various reward models towards a better understanding of the RLHF process.

Summary

AI-Generated Summary

PDF232December 15, 2024