ChatPaper.aiChatPaper

RewardBench: Evaluatie van Beloningsmodellen voor Taalmodellering

RewardBench: Evaluating Reward Models for Language Modeling

March 20, 2024
Auteurs: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI

Samenvatting

Beloningsmodellen (RMs) staan centraal in succesvolle RLHF (Reinforcement Learning from Human Feedback) om voorgetrainde modellen af te stemmen op menselijke voorkeuren, maar er is relatief weinig onderzoek dat zich richt op de evaluatie van deze beloningsmodellen. Het evalueren van beloningsmodellen biedt een kans om de ondoorzichtige technologieën die worden gebruikt voor het afstemmen van taalmodellen beter te begrijpen en te zien welke waarden erin zijn ingebed. Tot op heden bestaan er zeer weinig beschrijvingen van mogelijkheden, trainingsmethoden of open-source beloningsmodellen. In dit artikel presenteren we RewardBench, een benchmarkdataset en codebase voor evaluatie, om het wetenschappelijke begrip van beloningsmodellen te vergroten. De RewardBench-dataset is een verzameling van prompt-win-lose trio's die chat, redeneren en veiligheid omvatten, om te benchmarken hoe beloningsmodellen presteren op uitdagende, gestructureerde en out-of-distribution queries. We hebben specifieke vergelijkingsdatasets gemaakt voor RMs die subtiele, maar verifieerbare redenen hebben (bijv. bugs, incorrecte feiten) waarom het ene antwoord de voorkeur verdient boven het andere. Op het RewardBench-leaderboard evalueren we beloningsmodellen die zijn getraind met verschillende methoden, zoals de directe MLE-training van classificatoren en de impliciete beloningsmodellering van Direct Preference Optimization (DPO), en op een reeks datasets. We presenteren veel bevindingen over de neiging tot weigeringen, beperkingen in redeneren en tekortkomingen in het volgen van instructies van verschillende beloningsmodellen, om zo het RLHF-proces beter te begrijpen.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained models to human preferences, yet there has been relatively little study that focuses on evaluation of those reward models. Evaluating reward models presents an opportunity to understand the opaque technologies used for alignment of language models and which values are embedded in them. To date, very few descriptors of capabilities, training methods, or open-source reward models exist. In this paper, we present RewardBench, a benchmark dataset and code-base for evaluation, to enhance scientific understanding of reward models. The RewardBench dataset is a collection of prompt-win-lose trios spanning chat, reasoning, and safety, to benchmark how reward models perform on challenging, structured and out-of-distribution queries. We created specific comparison datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect facts) why one answer should be preferred to another. On the RewardBench leaderboard, we evaluate reward models trained with a variety of methods, such as the direct MLE training of classifiers and the implicit reward modeling of Direct Preference Optimization (DPO), and on a spectrum of datasets. We present many findings on propensity for refusals, reasoning limitations, and instruction following shortcomings of various reward models towards a better understanding of the RLHF process.
PDF222February 7, 2026