RewardBench: Valutazione dei Modelli di Ricompensa per il Modellamento del Linguaggio
RewardBench: Evaluating Reward Models for Language Modeling
March 20, 2024
Autori: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Abstract
I modelli di ricompensa (RMs) sono al centro del successo del RLHF (Reinforcement Learning from Human Feedback) per allineare i modelli pre-addestrati alle preferenze umane, eppure ci sono stati relativamente pochi studi che si concentrano sulla valutazione di questi modelli di ricompensa. Valutare i modelli di ricompensa rappresenta un'opportunità per comprendere le tecnologie opache utilizzate per l'allineamento dei modelli linguistici e quali valori sono incorporati in essi. Ad oggi, esistono pochissimi descrittori delle capacità, dei metodi di addestramento o dei modelli di ricompensa open-source. In questo articolo, presentiamo RewardBench, un dataset di benchmark e una base di codice per la valutazione, per migliorare la comprensione scientifica dei modelli di ricompensa. Il dataset RewardBench è una raccolta di triadi prompt-vittoria-sconfitta che coprono chat, ragionamento e sicurezza, per valutare come i modelli di ricompensa si comportano su query complesse, strutturate e fuori distribuzione. Abbiamo creato specifici dataset di confronto per RMs che hanno ragioni sottili, ma verificabili (ad esempio, bug, fatti errati) per cui una risposta dovrebbe essere preferita rispetto a un'altra. Nella classifica di RewardBench, valutiamo modelli di ricompensa addestrati con una varietà di metodi, come l'addestramento diretto MLE di classificatori e la modellazione implicita della ricompensa di Direct Preference Optimization (DPO), e su uno spettro di dataset. Presentiamo numerosi risultati sulla propensione ai rifiuti, le limitazioni nel ragionamento e le carenze nel seguire le istruzioni di vari modelli di ricompensa, verso una migliore comprensione del processo RLHF.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained
models to human preferences, yet there has been relatively little study that
focuses on evaluation of those reward models. Evaluating reward models presents
an opportunity to understand the opaque technologies used for alignment of
language models and which values are embedded in them. To date, very few
descriptors of capabilities, training methods, or open-source reward models
exist. In this paper, we present RewardBench, a benchmark dataset and code-base
for evaluation, to enhance scientific understanding of reward models. The
RewardBench dataset is a collection of prompt-win-lose trios spanning chat,
reasoning, and safety, to benchmark how reward models perform on challenging,
structured and out-of-distribution queries. We created specific comparison
datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect
facts) why one answer should be preferred to another. On the RewardBench
leaderboard, we evaluate reward models trained with a variety of methods, such
as the direct MLE training of classifiers and the implicit reward modeling of
Direct Preference Optimization (DPO), and on a spectrum of datasets. We present
many findings on propensity for refusals, reasoning limitations, and
instruction following shortcomings of various reward models towards a better
understanding of the RLHF process.