Общее моделирование предпочтений с представлениями предпочтений для выравнивания языковых моделей
General Preference Modeling with Preference Representations for Aligning Language Models
October 3, 2024
Авторы: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
cs.AI
Аннотация
Моделирование человеческих предпочтений крайне важно для согласования базовых моделей с человеческими ценностями. Традиционные методы моделирования вознаграждения, такие как модель вознаграждения Брэдли-Терри (BT), оказываются недостаточно выразительными, особенно при работе с транзитивными предпочтениями. Хотя модели с учителем парных предпочтений (PairPM) могут выражать общие предпочтения, их реализация является чрезвычайно ад-хок и не гарантирует последовательной вероятности предпочтения для сравниваемых пар. Кроме того, они накладывают высокие вычислительные затраты из-за квадратичной сложности запроса при сравнении нескольких ответов. В данной статье мы представляем обучение представлению предпочтений, подход, который встраивает ответы в латентное пространство для эффективного улавливания сложных структур предпочтений, достигая линейной сложности запроса. Кроме того, мы предлагаем обобщенную оптимизацию предпочтений на основе оценки предпочтений (GPO), которая обобщает обучение с подкреплением на основе вознаграждения от человеческой обратной связи. Экспериментальные результаты показывают, что наша обобщенная модель представления предпочтений (GPM) превосходит модель вознаграждения BT на бенчмарке RewardBench с отрывом до 5.6% и эффективно моделирует циклические предпочтения, при которых любая модель вознаграждения BT ведет себя как случайное угадывание. Кроме того, оценки на задачах AlpacaEval2.0 и MT-Bench, после предварительного обучения языковой модели с использованием GPO и нашей общей модели предпочтений, показывают значительное улучшение производительности с отрывом до 9.3%. Эти результаты указывают на то, что наш метод может улучшить согласование базовых моделей с тонкими человеческими ценностями. Код доступен по ссылке https://github.com/general-preference/general-preference-model.
English
Modeling human preferences is crucial for aligning foundation models with
human values. Traditional reward modeling methods, such as the Bradley-Terry
(BT) reward model, fall short in expressiveness, particularly in addressing
intransitive preferences. Although supervised pair preference models (PairPM)
can express general preferences, their implementation is highly ad-hoc and
cannot guarantee a consistent preference probability of compared pairs.
Additionally, they impose high computational costs due to their quadratic query
complexity when comparing multiple responses. In this paper, we introduce
preference representation learning, an approach that embeds responses into a
latent space to capture intricate preference structures efficiently, achieving
linear query complexity. Additionally, we propose preference score-based
General Preference Optimization (GPO), which generalizes reward-based
reinforcement learning from human feedback. Experimental results show that our
General Preference representation model (GPM) outperforms the BT reward model
on the RewardBench benchmark with a margin of up to 5.6% and effectively models
cyclic preferences where any BT reward model behaves like a random guess.
Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and
MT-Bench, following the language model post-training with GPO and our general
preference model, reveal substantial performance improvements with margins up
to 9.3%. These findings indicate that our method may enhance the alignment of
foundation models with nuanced human values. The code is available at
https://github.com/general-preference/general-preference-model.Summary
AI-Generated Summary