ChatPaper.aiChatPaper

RewardBench: Avaliação de Modelos de Recompensa para Modelagem de Linguagem

RewardBench: Evaluating Reward Models for Language Modeling

March 20, 2024
Autores: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI

Resumo

Os modelos de recompensa (RMs) estão no cerne do sucesso do RLHF (Reinforcement Learning from Human Feedback) para alinhar modelos pré-treinados às preferências humanas, mas houve relativamente poucos estudos que se concentram na avaliação desses modelos de recompensa. Avaliar modelos de recompensa apresenta uma oportunidade para entender as tecnologias opacas usadas para o alinhamento de modelos de linguagem e quais valores estão incorporados neles. Até o momento, existem muito poucos descritores de capacidades, métodos de treinamento ou modelos de recompensa de código aberto. Neste artigo, apresentamos o RewardBench, um conjunto de dados de benchmark e uma base de código para avaliação, com o objetivo de aprimorar o entendimento científico dos modelos de recompensa. O conjunto de dados do RewardBench é uma coleção de trios de prompt-vitória-derrota que abrangem chat, raciocínio e segurança, para avaliar como os modelos de recompensa se saem em consultas desafiadoras, estruturadas e fora da distribuição. Criamos conjuntos de dados de comparação específicos para RMs que têm razões sutis, mas verificáveis (por exemplo, bugs, fatos incorretos) pelas quais uma resposta deve ser preferida em relação a outra. No quadro de líderes do RewardBench, avaliamos modelos de recompensa treinados com uma variedade de métodos, como o treinamento direto de classificadores por MLE (Maximum Likelihood Estimation) e a modelagem implícita de recompensa do Direct Preference Optimization (DPO), e em um espectro de conjuntos de dados. Apresentamos várias descobertas sobre a propensão para recusas, limitações de raciocínio e deficiências no seguimento de instruções de vários modelos de recompensa, visando uma melhor compreensão do processo de RLHF.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained models to human preferences, yet there has been relatively little study that focuses on evaluation of those reward models. Evaluating reward models presents an opportunity to understand the opaque technologies used for alignment of language models and which values are embedded in them. To date, very few descriptors of capabilities, training methods, or open-source reward models exist. In this paper, we present RewardBench, a benchmark dataset and code-base for evaluation, to enhance scientific understanding of reward models. The RewardBench dataset is a collection of prompt-win-lose trios spanning chat, reasoning, and safety, to benchmark how reward models perform on challenging, structured and out-of-distribution queries. We created specific comparison datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect facts) why one answer should be preferred to another. On the RewardBench leaderboard, we evaluate reward models trained with a variety of methods, such as the direct MLE training of classifiers and the implicit reward modeling of Direct Preference Optimization (DPO), and on a spectrum of datasets. We present many findings on propensity for refusals, reasoning limitations, and instruction following shortcomings of various reward models towards a better understanding of the RLHF process.
PDF222February 7, 2026