DeepSpeed-Chat: Entrenamiento de RLHF Fácil, Rápido y Económico para Modelos Tipo ChatGPT a Todas las Escalas
DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales
August 2, 2023
Autores: Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He
cs.AI
Resumen
Los modelos tipo ChatGPT han revolucionado diversas aplicaciones en inteligencia artificial, desde la resumen y la codificación hasta la traducción, igualando o incluso superando el rendimiento humano. Sin embargo, el panorama actual carece de una pipeline de entrenamiento RLHF (Reinforcement Learning with Human Feedback) accesible, eficiente y rentable de extremo a extremo para estos potentes modelos, especialmente cuando se entrena a escala de miles de millones de parámetros. Este artículo presenta DeepSpeed-Chat, un sistema novedoso que democratiza el entrenamiento RLHF, haciéndolo accesible para la comunidad de IA. DeepSpeed-Chat ofrece tres capacidades clave: una experiencia de entrenamiento e inferencia fácil de usar para modelos tipo ChatGPT, una pipeline DeepSpeed-RLHF que replica el proceso de entrenamiento de InstructGPT, y un sistema robusto DeepSpeed-RLHF que combina diversas optimizaciones para el entrenamiento y la inferencia de manera unificada. El sistema ofrece una eficiencia y escalabilidad sin precedentes, permitiendo el entrenamiento de modelos con cientos de miles de millones de parámetros en un tiempo récord y a una fracción del costo. Con este avance, DeepSpeed-Chat allana el camino para un acceso más amplio al entrenamiento avanzado RLHF, incluso para científicos de datos con recursos limitados, fomentando así la innovación y el desarrollo continuo en el campo de la IA.
English
ChatGPT-like models have revolutionized various applications in artificial
intelligence, from summarization and coding to translation, matching or even
surpassing human performance. However, the current landscape lacks an
accessible, efficient, and cost-effective end-to-end RLHF (Reinforcement
Learning with Human Feedback) training pipeline for these powerful models,
particularly when training at the scale of billions of parameters. This paper
introduces DeepSpeed-Chat, a novel system that democratizes RLHF training,
making it accessible to the AI community. DeepSpeed-Chat offers three key
capabilities: an easy-to-use training and inference experience for ChatGPT-like
models, a DeepSpeed-RLHF pipeline that replicates the training pipeline from
InstructGPT, and a robust DeepSpeed-RLHF system that combines various
optimizations for training and inference in a unified way. The system delivers
unparalleled efficiency and scalability, enabling training of models with
hundreds of billions of parameters in record time and at a fraction of the
cost. With this development, DeepSpeed-Chat paves the way for broader access to
advanced RLHF training, even for data scientists with limited resources,
thereby fostering innovation and further development in the field of AI.