Les secrets du RLHF dans les grands modèles de langage Partie I : PPO
Secrets of RLHF in Large Language Models Part I: PPO
July 11, 2023
Auteurs: Rui Zheng, Shihan Dou, Songyang Gao, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Limao Xiong, Lu Chen, Zhiheng Xi, Yuhao Zhou, Nuo Xu, Wenbin Lai, Minghao Zhu, Rongxiang Weng, Wensen Cheng, Cheng Chang, Zhangyue Yin, Yuan Hua, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont établi un plan directeur pour l'avancement de l'intelligence artificielle générale. Leur objectif principal est de fonctionner comme des assistants centrés sur l'humain (utiles, honnêtes et inoffensifs). L'alignement avec les humains revêt une importance primordiale, et l'apprentissage par renforcement avec feedback humain (RLHF) apparaît comme le paradigme technologique clé sous-tendant cette quête. Les approches techniques actuelles incluent généralement des modèles de récompense pour mesurer les préférences humaines, l'optimisation de politique proximale (PPO) pour optimiser les sorties du modèle de politique, et la supervision de processus pour améliorer les capacités de raisonnement étape par étape. Cependant, en raison des défis liés à la conception des récompenses, à l'interaction avec l'environnement et à l'entraînement des agents, couplés aux coûts élevés d'essais et erreurs des grands modèles de langage, il existe un obstacle significatif pour les chercheurs en IA pour motiver le développement de l'alignement technique et l'atterrissage en toute sécurité des LLMs. L'entraînement stable du RLHF reste une énigme. Dans le premier rapport, nous disséquons le cadre du RLHF, réévaluons les mécanismes internes du PPO, et explorons comment les composants des algorithmes PPO impactent l'entraînement des agents de politique. Nous identifions les contraintes de politique comme étant le facteur clé pour la mise en œuvre efficace de l'algorithme PPO. Par conséquent, nous explorons le PPO-max, une version avancée de l'algorithme PPO, pour améliorer efficacement la stabilité de l'entraînement du modèle de politique. Sur la base de nos principaux résultats, nous effectuons une analyse complète des capacités du RLHF comparées aux modèles SFT et ChatGPT. L'absence d'implémentations open-source a posé des défis importants à l'investigation de l'alignement des LLMs. Par conséquent, nous sommes impatients de publier des rapports techniques, des modèles de récompense et des codes PPO.
English
Large language models (LLMs) have formulated a blueprint for the advancement
of artificial general intelligence. Its primary objective is to function as a
human-centric (helpful, honest, and harmless) assistant. Alignment with humans
assumes paramount significance, and reinforcement learning with human feedback
(RLHF) emerges as the pivotal technological paradigm underpinning this pursuit.
Current technical routes usually include reward models to measure
human preferences, Proximal Policy Optimization (PPO) to optimize
policy model outputs, and process supervision to improve step-by-step
reasoning capabilities. However, due to the challenges of reward design,
environment interaction, and agent training, coupled with huge trial and error
cost of large language models, there is a significant barrier for AI
researchers to motivate the development of technical alignment and safe landing
of LLMs. The stable training of RLHF has still been a puzzle. In the first
report, we dissect the framework of RLHF, re-evaluate the inner workings of
PPO, and explore how the parts comprising PPO algorithms impact policy agent
training. We identify policy constraints being the key factor for the effective
implementation of the PPO algorithm. Therefore, we explore the PPO-max, an
advanced version of PPO algorithm, to efficiently improve the training
stability of the policy model. Based on our main results, we perform a
comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT.
The absence of open-source implementations has posed significant challenges to
the investigation of LLMs alignment. Therefore, we are eager to release
technical reports, reward models and PPO codes