ChatPaper.aiChatPaper

RewardBench: Оценка моделей вознаграждения для языкового моделирования

RewardBench: Evaluating Reward Models for Language Modeling

March 20, 2024
Авторы: Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI

Аннотация

Модели вознаграждения (RMs) находятся в центре успешного RLHF для выравнивания предварительно обученных моделей с предпочтениями людей, однако относительно мало исследований, сосредоточенных на оценке этих моделей вознаграждения. Оценка моделей вознаграждения представляет собой возможность понять непрозрачные технологии, используемые для выравнивания языковых моделей, и какие ценности в них закодированы. До настоящего времени существует очень мало описаний возможностей, методов обучения или открытых моделей вознаграждения. В данной статье мы представляем RewardBench, набор данных и кодовую базу для оценки, чтобы улучшить научное понимание моделей вознаграждения. Набор данных RewardBench представляет собой коллекцию троек prompt-win-lose, охватывающих чат, рассуждения и безопасность, для оценки производительности моделей вознаграждения на сложных, структурированных и вне распределения запросах. Мы создали специальные сравнительные наборы данных для RMs, у которых есть тонкие, но проверяемые причины (например, ошибки, неверные факты), почему один ответ должен быть предпочтен другому. На доске лидеров RewardBench мы оцениваем модели вознаграждения, обученные различными методами, такими как прямое обучение MLE классификаторов и неявное моделирование вознаграждения оптимизацией прямых предпочтений (DPO), на различных наборах данных. Мы представляем множество результатов о склонности к отказам, ограничениях рассуждений и недостатках в следовании инструкциям различных моделей вознаграждения для лучшего понимания процесса RLHF.
English
Reward models (RMs) are at the crux of successful RLHF to align pretrained models to human preferences, yet there has been relatively little study that focuses on evaluation of those reward models. Evaluating reward models presents an opportunity to understand the opaque technologies used for alignment of language models and which values are embedded in them. To date, very few descriptors of capabilities, training methods, or open-source reward models exist. In this paper, we present RewardBench, a benchmark dataset and code-base for evaluation, to enhance scientific understanding of reward models. The RewardBench dataset is a collection of prompt-win-lose trios spanning chat, reasoning, and safety, to benchmark how reward models perform on challenging, structured and out-of-distribution queries. We created specific comparison datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect facts) why one answer should be preferred to another. On the RewardBench leaderboard, we evaluate reward models trained with a variety of methods, such as the direct MLE training of classifiers and the implicit reward modeling of Direct Preference Optimization (DPO), and on a spectrum of datasets. We present many findings on propensity for refusals, reasoning limitations, and instruction following shortcomings of various reward models towards a better understanding of the RLHF process.

Summary

AI-Generated Summary

PDF232December 15, 2024