Les secrets du RLHF dans les grands modèles de langage Partie II : Modélisation des récompenses
Secrets of RLHF in Large Language Models Part II: Reward Modeling
January 11, 2024
Auteurs: Binghai Wang, Rui Zheng, Lu Chen, Yan Liu, Shihan Dou, Caishuang Huang, Wei Shen, Senjie Jin, Enyu Zhou, Chenyu Shi, Songyang Gao, Nuo Xu, Yuhao Zhou, Xiaoran Fan, Zhiheng Xi, Jun Zhao, Xiao Wang, Tao Ji, Hang Yan, Lixing Shen, Zhan Chen, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Résumé
L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu une technologie cruciale pour aligner les modèles de langage sur les valeurs et intentions humaines, permettant aux modèles de produire des réponses plus utiles et inoffensives. Les modèles de récompense sont entraînés comme substituts des préférences humaines pour piloter l'optimisation de l'apprentissage par renforcement. Bien que les modèles de récompense soient souvent considérés comme centraux pour atteindre des performances élevées, ils rencontrent les défis suivants dans les applications pratiques : (1) Les paires de préférences incorrectes et ambiguës dans le jeu de données peuvent empêcher le modèle de récompense de capturer avec précision l'intention humaine. (2) Les modèles de récompense entraînés sur des données provenant d'une distribution spécifique ont souvent du mal à généraliser à des exemples hors de cette distribution et ne sont pas adaptés à l'entraînement itératif du RLHF.
Dans ce rapport, nous tentons de résoudre ces deux problèmes. (1) D'un point de vue des données, nous proposons une méthode pour mesurer la force des préférences dans les données, basée sur un mécanisme de vote de plusieurs modèles de récompense. Les résultats expérimentaux confirment que les données avec des forces de préférence variables ont des impacts différents sur les performances du modèle de récompense. Nous introduisons une série de méthodes novatrices pour atténuer l'influence des préférences incorrectes et ambiguës dans le jeu de données et tirer pleinement parti des données de préférence de haute qualité. (2) D'un point de vue algorithmique, nous introduisons l'apprentissage contrastif pour améliorer la capacité des modèles de récompense à distinguer les réponses choisies et rejetées, améliorant ainsi la généralisation du modèle. De plus, nous utilisons le méta-apprentissage pour permettre au modèle de récompense de maintenir la capacité à différencier les différences subtiles dans les échantillons hors distribution, et cette approche peut être utilisée pour l'optimisation itérative du RLHF.
English
Reinforcement Learning from Human Feedback (RLHF) has become a crucial
technology for aligning language models with human values and intentions,
enabling models to produce more helpful and harmless responses. Reward models
are trained as proxies for human preferences to drive reinforcement learning
optimization. While reward models are often considered central to achieving
high performance, they face the following challenges in practical applications:
(1) Incorrect and ambiguous preference pairs in the dataset may hinder the
reward model from accurately capturing human intent. (2) Reward models trained
on data from a specific distribution often struggle to generalize to examples
outside that distribution and are not suitable for iterative RLHF training.
In this report, we attempt to address these two issues. (1) From a data
perspective, we propose a method to measure the strength of preferences within
the data, based on a voting mechanism of multiple reward models. Experimental
results confirm that data with varying preference strengths have different
impacts on reward model performance. We introduce a series of novel methods to
mitigate the influence of incorrect and ambiguous preferences in the dataset
and fully leverage high-quality preference data. (2) From an algorithmic
standpoint, we introduce contrastive learning to enhance the ability of reward
models to distinguish between chosen and rejected responses, thereby improving
model generalization. Furthermore, we employ meta-learning to enable the reward
model to maintain the ability to differentiate subtle differences in
out-of-distribution samples, and this approach can be utilized for iterative
RLHF optimization.