Stabilisation du RLHF grâce au modèle d'avantage et à la répétition sélective
Stabilizing RLHF through Advantage Model and Selective Rehearsal
September 18, 2023
Auteurs: Baolin Peng, Linfeng Song, Ye Tian, Lifeng Jin, Haitao Mi, Dong Yu
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont révolutionné le traitement du langage naturel, mais l'alignement de ces modèles avec les valeurs et préférences humaines grâce à l'apprentissage par renforcement à partir de feedback humain (RLHF) reste un défi majeur. Ce défi se caractérise par diverses instabilités, telles que le détournement de récompense et l'oubli catastrophique. Dans ce rapport technique, nous proposons deux innovations pour stabiliser l'entraînement RLHF : 1) le Modèle d'Avantage, qui modélise directement le score d'avantage, c'est-à-dire la récompense supplémentaire par rapport aux récompenses attendues, et régule les distributions de scores entre les tâches pour prévenir le détournement de récompense. 2) la Répétition Sélective, qui atténue l'oubli catastrophique en sélectionnant stratégiquement les données pour l'entraînement PPO et la révision des connaissances. Notre analyse expérimentale sur des ensembles de données publics et propriétaires révèle que les méthodes proposées augmentent non seulement la stabilité de l'entraînement RLHF, mais améliorent également les scores de récompense et les taux de victoire.
English
Large Language Models (LLMs) have revolutionized natural language processing,
yet aligning these models with human values and preferences using RLHF remains
a significant challenge. This challenge is characterized by various
instabilities, such as reward hacking and catastrophic forgetting. In this
technical report, we propose two innovations to stabilize RLHF training: 1)
Advantage Model, which directly models advantage score i.e., extra reward
compared to the expected rewards and regulates score distributions across tasks
to prevent reward hacking. 2) Selective Rehearsal, which mitigates catastrophic
forgetting by strategically selecting data for PPO training and knowledge
rehearsing. Our experimental analysis on public and proprietary datasets
reveals that the proposed methods not only increase stability in RLHF training
but also achieve higher reward scores and win rates.