RewardBench: Оценка моделей вознаграждения для языкового моделирования
RewardBench: Evaluating Reward Models for Language Modeling
March 20, 2024
Авторы: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Аннотация
Модели вознаграждения (RMs) находятся в центре успешного RLHF для выравнивания предварительно обученных моделей с предпочтениями людей, однако относительно мало исследований, сосредоточенных на оценке этих моделей вознаграждения. Оценка моделей вознаграждения представляет собой возможность понять непрозрачные технологии, используемые для выравнивания языковых моделей, и какие ценности в них закодированы. До настоящего времени существует очень мало описаний возможностей, методов обучения или открытых моделей вознаграждения. В данной статье мы представляем RewardBench, набор данных и кодовую базу для оценки, чтобы улучшить научное понимание моделей вознаграждения. Набор данных RewardBench представляет собой коллекцию троек prompt-win-lose, охватывающих чат, рассуждения и безопасность, для оценки производительности моделей вознаграждения на сложных, структурированных и вне распределения запросах. Мы создали специальные сравнительные наборы данных для RMs, у которых есть тонкие, но проверяемые причины (например, ошибки, неверные факты), почему один ответ должен быть предпочтен другому. На доске лидеров RewardBench мы оцениваем модели вознаграждения, обученные различными методами, такими как прямое обучение MLE классификаторов и неявное моделирование вознаграждения оптимизацией прямых предпочтений (DPO), на различных наборах данных. Мы представляем множество результатов о склонности к отказам, ограничениях рассуждений и недостатках в следовании инструкциям различных моделей вознаграждения для лучшего понимания процесса RLHF.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained
models to human preferences, yet there has been relatively little study that
focuses on evaluation of those reward models. Evaluating reward models presents
an opportunity to understand the opaque technologies used for alignment of
language models and which values are embedded in them. To date, very few
descriptors of capabilities, training methods, or open-source reward models
exist. In this paper, we present RewardBench, a benchmark dataset and code-base
for evaluation, to enhance scientific understanding of reward models. The
RewardBench dataset is a collection of prompt-win-lose trios spanning chat,
reasoning, and safety, to benchmark how reward models perform on challenging,
structured and out-of-distribution queries. We created specific comparison
datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect
facts) why one answer should be preferred to another. On the RewardBench
leaderboard, we evaluate reward models trained with a variety of methods, such
as the direct MLE training of classifiers and the implicit reward modeling of
Direct Preference Optimization (DPO), and on a spectrum of datasets. We present
many findings on propensity for refusals, reasoning limitations, and
instruction following shortcomings of various reward models towards a better
understanding of the RLHF process.Summary
AI-Generated Summary