DeepSpeed-Chat : Un entraînement RLHF simple, rapide et abordable pour des modèles de type ChatGPT à toutes les échelles
DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales
August 2, 2023
Auteurs: Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He
cs.AI
Résumé
Les modèles de type ChatGPT ont révolutionné diverses applications en intelligence artificielle, allant de la synthèse et du codage à la traduction, égalant voire surpassant les performances humaines. Cependant, le paysage actuel manque d'un pipeline de formation RLHF (Reinforcement Learning with Human Feedback) accessible, efficace et rentable pour ces modèles puissants, en particulier lors de l'entraînement à l'échelle de milliards de paramètres. Cet article présente DeepSpeed-Chat, un système novateur qui démocratise la formation RLHF, la rendant accessible à la communauté de l'IA. DeepSpeed-Chat offre trois capacités clés : une expérience de formation et d'inférence facile à utiliser pour les modèles de type ChatGPT, un pipeline DeepSpeed-RLHF qui reproduit le pipeline de formation d'InstructGPT, et un système robuste DeepSpeed-RLHF qui combine diverses optimisations pour la formation et l'inférence de manière unifiée. Le système offre une efficacité et une scalabilité inégalées, permettant l'entraînement de modèles avec des centaines de milliards de paramètres en un temps record et à une fraction du coût. Avec cette avancée, DeepSpeed-Chat ouvre la voie à un accès plus large à la formation RLHF avancée, même pour les scientifiques des données disposant de ressources limitées, favorisant ainsi l'innovation et le développement ultérieur dans le domaine de l'IA.
English
ChatGPT-like models have revolutionized various applications in artificial
intelligence, from summarization and coding to translation, matching or even
surpassing human performance. However, the current landscape lacks an
accessible, efficient, and cost-effective end-to-end RLHF (Reinforcement
Learning with Human Feedback) training pipeline for these powerful models,
particularly when training at the scale of billions of parameters. This paper
introduces DeepSpeed-Chat, a novel system that democratizes RLHF training,
making it accessible to the AI community. DeepSpeed-Chat offers three key
capabilities: an easy-to-use training and inference experience for ChatGPT-like
models, a DeepSpeed-RLHF pipeline that replicates the training pipeline from
InstructGPT, and a robust DeepSpeed-RLHF system that combines various
optimizations for training and inference in a unified way. The system delivers
unparalleled efficiency and scalability, enabling training of models with
hundreds of billions of parameters in record time and at a fraction of the
cost. With this development, DeepSpeed-Chat paves the way for broader access to
advanced RLHF training, even for data scientists with limited resources,
thereby fostering innovation and further development in the field of AI.