RewardBench: Evaluatie van Beloningsmodellen voor Taalmodellering
RewardBench: Evaluating Reward Models for Language Modeling
March 20, 2024
Auteurs: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Samenvatting
Beloningsmodellen (RMs) staan centraal in succesvolle RLHF (Reinforcement Learning from Human Feedback) om voorgetrainde modellen af te stemmen op menselijke voorkeuren, maar er is relatief weinig onderzoek dat zich richt op de evaluatie van deze beloningsmodellen. Het evalueren van beloningsmodellen biedt een kans om de ondoorzichtige technologieën die worden gebruikt voor het afstemmen van taalmodellen beter te begrijpen en te zien welke waarden erin zijn ingebed. Tot op heden bestaan er zeer weinig beschrijvingen van mogelijkheden, trainingsmethoden of open-source beloningsmodellen. In dit artikel presenteren we RewardBench, een benchmarkdataset en codebase voor evaluatie, om het wetenschappelijke begrip van beloningsmodellen te vergroten. De RewardBench-dataset is een verzameling van prompt-win-lose trio's die chat, redeneren en veiligheid omvatten, om te benchmarken hoe beloningsmodellen presteren op uitdagende, gestructureerde en out-of-distribution queries. We hebben specifieke vergelijkingsdatasets gemaakt voor RMs die subtiele, maar verifieerbare redenen hebben (bijv. bugs, incorrecte feiten) waarom het ene antwoord de voorkeur verdient boven het andere. Op het RewardBench-leaderboard evalueren we beloningsmodellen die zijn getraind met verschillende methoden, zoals de directe MLE-training van classificatoren en de impliciete beloningsmodellering van Direct Preference Optimization (DPO), en op een reeks datasets. We presenteren veel bevindingen over de neiging tot weigeringen, beperkingen in redeneren en tekortkomingen in het volgen van instructies van verschillende beloningsmodellen, om zo het RLHF-proces beter te begrijpen.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained
models to human preferences, yet there has been relatively little study that
focuses on evaluation of those reward models. Evaluating reward models presents
an opportunity to understand the opaque technologies used for alignment of
language models and which values are embedded in them. To date, very few
descriptors of capabilities, training methods, or open-source reward models
exist. In this paper, we present RewardBench, a benchmark dataset and code-base
for evaluation, to enhance scientific understanding of reward models. The
RewardBench dataset is a collection of prompt-win-lose trios spanning chat,
reasoning, and safety, to benchmark how reward models perform on challenging,
structured and out-of-distribution queries. We created specific comparison
datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect
facts) why one answer should be preferred to another. On the RewardBench
leaderboard, we evaluate reward models trained with a variety of methods, such
as the direct MLE training of classifiers and the implicit reward modeling of
Direct Preference Optimization (DPO), and on a spectrum of datasets. We present
many findings on propensity for refusals, reasoning limitations, and
instruction following shortcomings of various reward models towards a better
understanding of the RLHF process.