Секреты RLHF в больших языковых моделях. Часть II: Моделирование вознаграждений
Secrets of RLHF in Large Language Models Part II: Reward Modeling
January 11, 2024
Авторы: Binghai Wang, Rui Zheng, Lu Chen, Yan Liu, Shihan Dou, Caishuang Huang, Wei Shen, Senjie Jin, Enyu Zhou, Chenyu Shi, Songyang Gao, Nuo Xu, Yuhao Zhou, Xiaoran Fan, Zhiheng Xi, Jun Zhao, Xiao Wang, Tao Ji, Hang Yan, Lixing Shen, Zhan Chen, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Аннотация
Обучение с подкреплением на основе человеческой обратной связи (RLHF) стало ключевой технологией для согласования языковых моделей с человеческими ценностями и намерениями, позволяя моделям генерировать более полезные и безопасные ответы. Модели вознаграждения обучаются в качестве прокси для человеческих предпочтений, чтобы направлять оптимизацию обучения с подкреплением. Хотя модели вознаграждения часто считаются центральными для достижения высокой производительности, они сталкиваются со следующими проблемами в практических приложениях: (1) Неправильные и неоднозначные пары предпочтений в наборе данных могут препятствовать точному улавливанию человеческих намерений моделью вознаграждения. (2) Модели вознаграждения, обученные на данных из определенного распределения, часто плохо обобщаются на примеры за пределами этого распределения и не подходят для итеративного обучения RLHF.
В данном отчете мы пытаемся решить эти две проблемы. (1) С точки зрения данных мы предлагаем метод измерения силы предпочтений в данных, основанный на механизме голосования нескольких моделей вознаграждения. Экспериментальные результаты подтверждают, что данные с различной силой предпочтений по-разному влияют на производительность модели вознаграждения. Мы представляем ряд новых методов для снижения влияния неправильных и неоднозначных предпочтений в наборе данных и полного использования высококачественных данных о предпочтениях. (2) С алгоритмической точки зрения мы внедряем контрастное обучение для улучшения способности моделей вознаграждения различать выбранные и отвергнутые ответы, тем самым повышая обобщаемость модели. Кроме того, мы используем метаобучение, чтобы модель вознаграждения сохраняла способность различать тонкие различия в примерах за пределами распределения, и этот подход может быть использован для итеративной оптимизации RLHF.
English
Reinforcement Learning from Human Feedback (RLHF) has become a crucial
technology for aligning language models with human values and intentions,
enabling models to produce more helpful and harmless responses. Reward models
are trained as proxies for human preferences to drive reinforcement learning
optimization. While reward models are often considered central to achieving
high performance, they face the following challenges in practical applications:
(1) Incorrect and ambiguous preference pairs in the dataset may hinder the
reward model from accurately capturing human intent. (2) Reward models trained
on data from a specific distribution often struggle to generalize to examples
outside that distribution and are not suitable for iterative RLHF training.
In this report, we attempt to address these two issues. (1) From a data
perspective, we propose a method to measure the strength of preferences within
the data, based on a voting mechanism of multiple reward models. Experimental
results confirm that data with varying preference strengths have different
impacts on reward model performance. We introduce a series of novel methods to
mitigate the influence of incorrect and ambiguous preferences in the dataset
and fully leverage high-quality preference data. (2) From an algorithmic
standpoint, we introduce contrastive learning to enhance the ability of reward
models to distinguish between chosen and rejected responses, thereby improving
model generalization. Furthermore, we employ meta-learning to enable the reward
model to maintain the ability to differentiate subtle differences in
out-of-distribution samples, and this approach can be utilized for iterative
RLHF optimization.