ChatPaper.aiChatPaper

RewardBench : Évaluation des modèles de récompense pour le traitement du langage

RewardBench: Evaluating Reward Models for Language Modeling

March 20, 2024
Auteurs: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI

Résumé

Les modèles de récompense (RMs) sont au cœur du succès du RLHF (Reinforcement Learning from Human Feedback) pour aligner les modèles pré-entraînés sur les préférences humaines, mais il existe relativement peu d'études qui se concentrent sur l'évaluation de ces modèles de récompense. Évaluer les modèles de récompense offre une opportunité de comprendre les technologies opaques utilisées pour l'alignement des modèles de langage et les valeurs qui y sont intégrées. À ce jour, il existe très peu de descriptions des capacités, des méthodes d'entraînement ou de modèles de récompense open-source. Dans cet article, nous présentons RewardBench, un ensemble de données de référence et une base de code pour l'évaluation, afin d'améliorer la compréhension scientifique des modèles de récompense. Le jeu de données RewardBench est une collection de trios prompt-gagnant-perdant couvrant le chat, le raisonnement et la sécurité, pour évaluer la performance des modèles de récompense sur des requêtes difficiles, structurées et hors distribution. Nous avons créé des ensembles de données de comparaison spécifiques pour les RMs qui contiennent des raisons subtiles mais vérifiables (par exemple, des bugs, des faits incorrects) pour lesquelles une réponse devrait être préférée à une autre. Sur le tableau des leaders de RewardBench, nous évaluons des modèles de récompense entraînés avec diverses méthodes, telles que l'entraînement MLE direct de classificateurs et la modélisation implicite des récompenses de l'Optimisation Directe des Préférences (DPO), et sur un spectre de jeux de données. Nous présentons de nombreuses découvertes sur la propension au refus, les limitations de raisonnement et les lacunes dans le suivi des instructions de divers modèles de récompense, dans le but de mieux comprendre le processus RLHF.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained models to human preferences, yet there has been relatively little study that focuses on evaluation of those reward models. Evaluating reward models presents an opportunity to understand the opaque technologies used for alignment of language models and which values are embedded in them. To date, very few descriptors of capabilities, training methods, or open-source reward models exist. In this paper, we present RewardBench, a benchmark dataset and code-base for evaluation, to enhance scientific understanding of reward models. The RewardBench dataset is a collection of prompt-win-lose trios spanning chat, reasoning, and safety, to benchmark how reward models perform on challenging, structured and out-of-distribution queries. We created specific comparison datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect facts) why one answer should be preferred to another. On the RewardBench leaderboard, we evaluate reward models trained with a variety of methods, such as the direct MLE training of classifiers and the implicit reward modeling of Direct Preference Optimization (DPO), and on a spectrum of datasets. We present many findings on propensity for refusals, reasoning limitations, and instruction following shortcomings of various reward models towards a better understanding of the RLHF process.

Summary

AI-Generated Summary

PDF232December 15, 2024