DeepSpeed-Chat: Addestramento RLHF Semplice, Veloce ed Economico per Modelli Simili a ChatGPT a Tutte le Scale
DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales
August 2, 2023
Autori: Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He
cs.AI
Abstract
I modelli simili a ChatGPT hanno rivoluzionato varie applicazioni nell'intelligenza artificiale, dalla sintesi e codifica alla traduzione, eguagliando o addirittura superando le prestazioni umane. Tuttavia, lo scenario attuale manca di una pipeline di addestramento RLHF (Reinforcement Learning with Human Feedback) end-to-end accessibile, efficiente e conveniente per questi potenti modelli, specialmente quando si tratta di addestrarli su scale di miliardi di parametri. Questo articolo introduce DeepSpeed-Chat, un sistema innovativo che democratizza l'addestramento RLHF, rendendolo accessibile alla comunità AI. DeepSpeed-Chat offre tre capacità chiave: un'esperienza di addestramento e inferenza facile da usare per modelli simili a ChatGPT, una pipeline DeepSpeed-RLHF che replica il processo di addestramento di InstructGPT, e un robusto sistema DeepSpeed-RLHF che combina varie ottimizzazioni per l'addestramento e l'inferenza in modo unificato. Il sistema offre un'efficienza e scalabilità senza precedenti, consentendo l'addestramento di modelli con centinaia di miliardi di parametri in tempi record e a una frazione del costo. Con questo sviluppo, DeepSpeed-Chat apre la strada a un accesso più ampio all'addestramento RLHF avanzato, anche per data scientist con risorse limitate, favorendo così l'innovazione e ulteriori progressi nel campo dell'AI.
English
ChatGPT-like models have revolutionized various applications in artificial
intelligence, from summarization and coding to translation, matching or even
surpassing human performance. However, the current landscape lacks an
accessible, efficient, and cost-effective end-to-end RLHF (Reinforcement
Learning with Human Feedback) training pipeline for these powerful models,
particularly when training at the scale of billions of parameters. This paper
introduces DeepSpeed-Chat, a novel system that democratizes RLHF training,
making it accessible to the AI community. DeepSpeed-Chat offers three key
capabilities: an easy-to-use training and inference experience for ChatGPT-like
models, a DeepSpeed-RLHF pipeline that replicates the training pipeline from
InstructGPT, and a robust DeepSpeed-RLHF system that combines various
optimizations for training and inference in a unified way. The system delivers
unparalleled efficiency and scalability, enabling training of models with
hundreds of billions of parameters in record time and at a fraction of the
cost. With this development, DeepSpeed-Chat paves the way for broader access to
advanced RLHF training, even for data scientists with limited resources,
thereby fostering innovation and further development in the field of AI.