Аксиоматическое моделирование предпочтений для ответов на развернутые вопросы
Axiomatic Preference Modeling for Longform Question Answering
December 2, 2023
Авторы: Corby Rosset, Guoqing Zheng, Victor Dibia, Ahmed Awadallah, Paul Bennett
cs.AI
Аннотация
Замечательные способности крупных языковых моделей (LLM), таких как GPT-4, частично обусловлены процессами пост-обучения, такими как обучение с подкреплением на основе человеческой обратной связи (RLHF), которое включает предпочтения людей, закодированные в модели вознаграждения. Однако эти модели вознаграждения (RM) часто не обладают прямым знанием о том, почему или на основе каких принципов были сделаны аннотации предпочтений. В данном исследовании мы определяем принципы, которые направляют RM для лучшего согласования с человеческими предпочтениями, а затем разрабатываем аксиоматическую структуру для генерации разнообразных сигналов предпочтений, чтобы поддерживать эти принципы. Мы используем эти аксиоматические сигналы для обучения модели, оценивающей ответы на развернутые вопросы. Наш подход позволяет создать модель предпочтений с примерно 220 миллионами параметров, которая согласуется с эталонными метками предпочтений, аннотированными людьми, чаще, чем GPT-4. Вклад этой работы включает: обучение автономной модели предпочтений, которая может оценивать ответы, созданные людьми и LLM, по одной шкале; разработку аксиоматической структуры для генерации пар обучающих данных, адаптированных к определенным принципам; и демонстрацию того, что небольшое количество аксиоматических сигналов может помочь небольшим моделям превзойти GPT-4 в оценке предпочтений. Мы публикуем нашу модель на huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model.
English
The remarkable abilities of large language models (LLMs) like GPT-4 partially
stem from post-training processes like Reinforcement Learning from Human
Feedback (RLHF) involving human preferences encoded in a reward model. However,
these reward models (RMs) often lack direct knowledge of why, or under what
principles, the preferences annotations were made. In this study, we identify
principles that guide RMs to better align with human preferences, and then
develop an axiomatic framework to generate a rich variety of preference signals
to uphold them. We use these axiomatic signals to train a model for scoring
answers to longform questions. Our approach yields a Preference Model with only
about 220M parameters that agrees with gold human-annotated preference labels
more often than GPT-4. The contributions of this work include: training a
standalone preference model that can score human- and LLM-generated answers on
the same scale; developing an axiomatic framework for generating training data
pairs tailored to certain principles; and showing that a small amount of
axiomatic signals can help small models outperform GPT-4 in preference scoring.
We release our model on huggingface:
https://huggingface.co/corbyrosset/axiomatic_preference_model