ChatPaper.aiChatPaper

Les secrets du RLHF dans les grands modèles de langage Partie I : PPO

Secrets of RLHF in Large Language Models Part I: PPO

July 11, 2023
Auteurs: Rui Zheng, Shihan Dou, Songyang Gao, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Limao Xiong, Lu Chen, Zhiheng Xi, Yuhao Zhou, Nuo Xu, Wenbin Lai, Minghao Zhu, Rongxiang Weng, Wensen Cheng, Cheng Chang, Zhangyue Yin, Yuan Hua, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont établi un plan directeur pour l'avancement de l'intelligence artificielle générale. Leur objectif principal est de fonctionner comme des assistants centrés sur l'humain (utiles, honnêtes et inoffensifs). L'alignement avec les humains revêt une importance primordiale, et l'apprentissage par renforcement avec feedback humain (RLHF) apparaît comme le paradigme technologique clé sous-tendant cette quête. Les approches techniques actuelles incluent généralement des modèles de récompense pour mesurer les préférences humaines, l'optimisation de politique proximale (PPO) pour optimiser les sorties du modèle de politique, et la supervision de processus pour améliorer les capacités de raisonnement étape par étape. Cependant, en raison des défis liés à la conception des récompenses, à l'interaction avec l'environnement et à l'entraînement des agents, couplés aux coûts élevés d'essais et erreurs des grands modèles de langage, il existe un obstacle significatif pour les chercheurs en IA pour motiver le développement de l'alignement technique et l'atterrissage en toute sécurité des LLMs. L'entraînement stable du RLHF reste une énigme. Dans le premier rapport, nous disséquons le cadre du RLHF, réévaluons les mécanismes internes du PPO, et explorons comment les composants des algorithmes PPO impactent l'entraînement des agents de politique. Nous identifions les contraintes de politique comme étant le facteur clé pour la mise en œuvre efficace de l'algorithme PPO. Par conséquent, nous explorons le PPO-max, une version avancée de l'algorithme PPO, pour améliorer efficacement la stabilité de l'entraînement du modèle de politique. Sur la base de nos principaux résultats, nous effectuons une analyse complète des capacités du RLHF comparées aux modèles SFT et ChatGPT. L'absence d'implémentations open-source a posé des défis importants à l'investigation de l'alignement des LLMs. Par conséquent, nous sommes impatients de publier des rapports techniques, des modèles de récompense et des codes PPO.
English
Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include reward models to measure human preferences, Proximal Policy Optimization (PPO) to optimize policy model outputs, and process supervision to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes
PDF291December 15, 2024