RewardBench: Avaliação de Modelos de Recompensa para Modelagem de Linguagem
RewardBench: Evaluating Reward Models for Language Modeling
March 20, 2024
Autores: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Resumo
Os modelos de recompensa (RMs) estão no cerne do sucesso do RLHF (Reinforcement Learning from Human Feedback) para alinhar modelos pré-treinados às preferências humanas, mas houve relativamente poucos estudos que se concentram na avaliação desses modelos de recompensa. Avaliar modelos de recompensa apresenta uma oportunidade para entender as tecnologias opacas usadas para o alinhamento de modelos de linguagem e quais valores estão incorporados neles. Até o momento, existem muito poucos descritores de capacidades, métodos de treinamento ou modelos de recompensa de código aberto. Neste artigo, apresentamos o RewardBench, um conjunto de dados de benchmark e uma base de código para avaliação, com o objetivo de aprimorar o entendimento científico dos modelos de recompensa. O conjunto de dados do RewardBench é uma coleção de trios de prompt-vitória-derrota que abrangem chat, raciocínio e segurança, para avaliar como os modelos de recompensa se saem em consultas desafiadoras, estruturadas e fora da distribuição. Criamos conjuntos de dados de comparação específicos para RMs que têm razões sutis, mas verificáveis (por exemplo, bugs, fatos incorretos) pelas quais uma resposta deve ser preferida em relação a outra. No quadro de líderes do RewardBench, avaliamos modelos de recompensa treinados com uma variedade de métodos, como o treinamento direto de classificadores por MLE (Maximum Likelihood Estimation) e a modelagem implícita de recompensa do Direct Preference Optimization (DPO), e em um espectro de conjuntos de dados. Apresentamos várias descobertas sobre a propensão para recusas, limitações de raciocínio e deficiências no seguimento de instruções de vários modelos de recompensa, visando uma melhor compreensão do processo de RLHF.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained
models to human preferences, yet there has been relatively little study that
focuses on evaluation of those reward models. Evaluating reward models presents
an opportunity to understand the opaque technologies used for alignment of
language models and which values are embedded in them. To date, very few
descriptors of capabilities, training methods, or open-source reward models
exist. In this paper, we present RewardBench, a benchmark dataset and code-base
for evaluation, to enhance scientific understanding of reward models. The
RewardBench dataset is a collection of prompt-win-lose trios spanning chat,
reasoning, and safety, to benchmark how reward models perform on challenging,
structured and out-of-distribution queries. We created specific comparison
datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect
facts) why one answer should be preferred to another. On the RewardBench
leaderboard, we evaluate reward models trained with a variety of methods, such
as the direct MLE training of classifiers and the implicit reward modeling of
Direct Preference Optimization (DPO), and on a spectrum of datasets. We present
many findings on propensity for refusals, reasoning limitations, and
instruction following shortcomings of various reward models towards a better
understanding of the RLHF process.