Аксиоматическое моделирование предпочтений для ответов на развернутые вопросы

Аннотация

Замечательные способности крупных языковых моделей (LLM), таких как GPT-4, частично обусловлены процессами пост-обучения, такими как обучение с подкреплением на основе человеческой обратной связи (RLHF), которое включает предпочтения людей, закодированные в модели вознаграждения. Однако эти модели вознаграждения (RM) часто не обладают прямым знанием о том, почему или на основе каких принципов были сделаны аннотации предпочтений. В данном исследовании мы определяем принципы, которые направляют RM для лучшего согласования с человеческими предпочтениями, а затем разрабатываем аксиоматическую структуру для генерации разнообразных сигналов предпочтений, чтобы поддерживать эти принципы. Мы используем эти аксиоматические сигналы для обучения модели, оценивающей ответы на развернутые вопросы. Наш подход позволяет создать модель предпочтений с примерно 220 миллионами параметров, которая согласуется с эталонными метками предпочтений, аннотированными людьми, чаще, чем GPT-4. Вклад этой работы включает: обучение автономной модели предпочтений, которая может оценивать ответы, созданные людьми и LLM, по одной шкале; разработку аксиоматической структуры для генерации пар обучающих данных, адаптированных к определенным принципам; и демонстрацию того, что небольшое количество аксиоматических сигналов может помочь небольшим моделям превзойти GPT-4 в оценке предпочтений. Мы публикуем нашу модель на huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model.

English

The remarkable abilities of large language models (LLMs) like GPT-4 partially stem from post-training processes like Reinforcement Learning from Human Feedback (RLHF) involving human preferences encoded in a reward model. However, these reward models (RMs) often lack direct knowledge of why, or under what principles, the preferences annotations were made. In this study, we identify principles that guide RMs to better align with human preferences, and then develop an axiomatic framework to generate a rich variety of preference signals to uphold them. We use these axiomatic signals to train a model for scoring answers to longform questions. Our approach yields a Preference Model with only about 220M parameters that agrees with gold human-annotated preference labels more often than GPT-4. The contributions of this work include: training a standalone preference model that can score human- and LLM-generated answers on the same scale; developing an axiomatic framework for generating training data pairs tailored to certain principles; and showing that a small amount of axiomatic signals can help small models outperform GPT-4 in preference scoring. We release our model on huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model

Аксиоматическое моделирование предпочтений для ответов на развернутые вопросы

Axiomatic Preference Modeling for Longform Question Answering

Аннотация

Support