RewardBench: Valutazione dei Modelli di Ricompensa per il Modellamento del Linguaggio

Abstract

I modelli di ricompensa (RMs) sono al centro del successo del RLHF (Reinforcement Learning from Human Feedback) per allineare i modelli pre-addestrati alle preferenze umane, eppure ci sono stati relativamente pochi studi che si concentrano sulla valutazione di questi modelli di ricompensa. Valutare i modelli di ricompensa rappresenta un'opportunità per comprendere le tecnologie opache utilizzate per l'allineamento dei modelli linguistici e quali valori sono incorporati in essi. Ad oggi, esistono pochissimi descrittori delle capacità, dei metodi di addestramento o dei modelli di ricompensa open-source. In questo articolo, presentiamo RewardBench, un dataset di benchmark e una base di codice per la valutazione, per migliorare la comprensione scientifica dei modelli di ricompensa. Il dataset RewardBench è una raccolta di triadi prompt-vittoria-sconfitta che coprono chat, ragionamento e sicurezza, per valutare come i modelli di ricompensa si comportano su query complesse, strutturate e fuori distribuzione. Abbiamo creato specifici dataset di confronto per RMs che hanno ragioni sottili, ma verificabili (ad esempio, bug, fatti errati) per cui una risposta dovrebbe essere preferita rispetto a un'altra. Nella classifica di RewardBench, valutiamo modelli di ricompensa addestrati con una varietà di metodi, come l'addestramento diretto MLE di classificatori e la modellazione implicita della ricompensa di Direct Preference Optimization (DPO), e su uno spettro di dataset. Presentiamo numerosi risultati sulla propensione ai rifiuti, le limitazioni nel ragionamento e le carenze nel seguire le istruzioni di vari modelli di ricompensa, verso una migliore comprensione del processo RLHF.

English

Reward models (RMs) are at the crux of successful RLHF to align pretrained models to human preferences, yet there has been relatively little study that focuses on evaluation of those reward models. Evaluating reward models presents an opportunity to understand the opaque technologies used for alignment of language models and which values are embedded in them. To date, very few descriptors of capabilities, training methods, or open-source reward models exist. In this paper, we present RewardBench, a benchmark dataset and code-base for evaluation, to enhance scientific understanding of reward models. The RewardBench dataset is a collection of prompt-win-lose trios spanning chat, reasoning, and safety, to benchmark how reward models perform on challenging, structured and out-of-distribution queries. We created specific comparison datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect facts) why one answer should be preferred to another. On the RewardBench leaderboard, we evaluate reward models trained with a variety of methods, such as the direct MLE training of classifiers and the implicit reward modeling of Direct Preference Optimization (DPO), and on a spectrum of datasets. We present many findings on propensity for refusals, reasoning limitations, and instruction following shortcomings of various reward models towards a better understanding of the RLHF process.

RewardBench: Valutazione dei Modelli di Ricompensa per il Modellamento del Linguaggio

RewardBench: Evaluating Reward Models for Language Modeling

Abstract

Support