RewardBench : Évaluation des modèles de récompense pour le traitement du langage
RewardBench: Evaluating Reward Models for Language Modeling
March 20, 2024
Auteurs: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Résumé
Les modèles de récompense (RMs) sont au cœur du succès du RLHF (Reinforcement Learning from Human Feedback) pour aligner les modèles pré-entraînés sur les préférences humaines, mais il existe relativement peu d'études qui se concentrent sur l'évaluation de ces modèles de récompense. Évaluer les modèles de récompense offre une opportunité de comprendre les technologies opaques utilisées pour l'alignement des modèles de langage et les valeurs qui y sont intégrées. À ce jour, il existe très peu de descriptions des capacités, des méthodes d'entraînement ou de modèles de récompense open-source. Dans cet article, nous présentons RewardBench, un ensemble de données de référence et une base de code pour l'évaluation, afin d'améliorer la compréhension scientifique des modèles de récompense. Le jeu de données RewardBench est une collection de trios prompt-gagnant-perdant couvrant le chat, le raisonnement et la sécurité, pour évaluer la performance des modèles de récompense sur des requêtes difficiles, structurées et hors distribution. Nous avons créé des ensembles de données de comparaison spécifiques pour les RMs qui contiennent des raisons subtiles mais vérifiables (par exemple, des bugs, des faits incorrects) pour lesquelles une réponse devrait être préférée à une autre. Sur le tableau des leaders de RewardBench, nous évaluons des modèles de récompense entraînés avec diverses méthodes, telles que l'entraînement MLE direct de classificateurs et la modélisation implicite des récompenses de l'Optimisation Directe des Préférences (DPO), et sur un spectre de jeux de données. Nous présentons de nombreuses découvertes sur la propension au refus, les limitations de raisonnement et les lacunes dans le suivi des instructions de divers modèles de récompense, dans le but de mieux comprendre le processus RLHF.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained
models to human preferences, yet there has been relatively little study that
focuses on evaluation of those reward models. Evaluating reward models presents
an opportunity to understand the opaque technologies used for alignment of
language models and which values are embedded in them. To date, very few
descriptors of capabilities, training methods, or open-source reward models
exist. In this paper, we present RewardBench, a benchmark dataset and code-base
for evaluation, to enhance scientific understanding of reward models. The
RewardBench dataset is a collection of prompt-win-lose trios spanning chat,
reasoning, and safety, to benchmark how reward models perform on challenging,
structured and out-of-distribution queries. We created specific comparison
datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect
facts) why one answer should be preferred to another. On the RewardBench
leaderboard, we evaluate reward models trained with a variety of methods, such
as the direct MLE training of classifiers and the implicit reward modeling of
Direct Preference Optimization (DPO), and on a spectrum of datasets. We present
many findings on propensity for refusals, reasoning limitations, and
instruction following shortcomings of various reward models towards a better
understanding of the RLHF process.Summary
AI-Generated Summary