RewardBench: Evaluierung von Belohnungsmodellen für Sprachmodellierung
RewardBench: Evaluating Reward Models for Language Modeling
March 20, 2024
Autoren: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Zusammenfassung
Belohnungsmodelle (RMs) sind der Kernpunkt erfolgreicher RLHF, um vorab trainierte Modelle an menschlichen Präferenzen auszurichten, dennoch wurde bisher vergleichsweise wenig Forschung betrieben, die sich auf die Bewertung dieser Belohnungsmodelle konzentriert. Die Bewertung von Belohnungsmodellen bietet die Möglichkeit, die undurchsichtigen Technologien zu verstehen, die zur Ausrichtung von Sprachmodellen verwendet werden, und welche Werte in ihnen verankert sind. Bisher existieren nur sehr wenige Beschreibungen von Fähigkeiten, Trainingsmethoden oder Open-Source-Belohnungsmodellen. In diesem Artikel präsentieren wir RewardBench, einen Benchmark-Datensatz und eine Code-Basis zur Bewertung, um das wissenschaftliche Verständnis von Belohnungsmodellen zu verbessern. Der RewardBench-Datensatz ist eine Sammlung von Prompt-Gewinn-Verlust-Trios, die Chat, Schlussfolgerung und Sicherheit abdecken, um zu bewerten, wie Belohnungsmodelle bei herausfordernden, strukturierten und außerhalb der Verteilung liegenden Abfragen abschneiden. Wir haben spezifische Vergleichsdatensätze für RMs erstellt, die subtile, aber überprüfbare Gründe (z. B. Fehler, inkorrekte Fakten) dafür haben, warum eine Antwort einer anderen vorgezogen werden sollte. Auf der RewardBench-Rangliste bewerten wir Belohnungsmodelle, die mit einer Vielzahl von Methoden trainiert wurden, wie dem direkten MLE-Training von Klassifikatoren und der impliziten Belohnungsmodellierung der Direkten Präferenzoptimierung (DPO), und auf einer Vielzahl von Datensätzen. Wir präsentieren viele Erkenntnisse über die Neigung zu Ablehnungen, Schlussfolgerungseinschränkungen und Anweisungsfolgefehler verschiedener Belohnungsmodelle zur besseren Verständnis des RLHF-Prozesses.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained
models to human preferences, yet there has been relatively little study that
focuses on evaluation of those reward models. Evaluating reward models presents
an opportunity to understand the opaque technologies used for alignment of
language models and which values are embedded in them. To date, very few
descriptors of capabilities, training methods, or open-source reward models
exist. In this paper, we present RewardBench, a benchmark dataset and code-base
for evaluation, to enhance scientific understanding of reward models. The
RewardBench dataset is a collection of prompt-win-lose trios spanning chat,
reasoning, and safety, to benchmark how reward models perform on challenging,
structured and out-of-distribution queries. We created specific comparison
datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect
facts) why one answer should be preferred to another. On the RewardBench
leaderboard, we evaluate reward models trained with a variety of methods, such
as the direct MLE training of classifiers and the implicit reward modeling of
Direct Preference Optimization (DPO), and on a spectrum of datasets. We present
many findings on propensity for refusals, reasoning limitations, and
instruction following shortcomings of various reward models towards a better
understanding of the RLHF process.Summary
AI-Generated Summary