DeepSpeed-Chat:あらゆる規模でのChatGPTライクモデルのRLHFトレーニングを容易に、迅速に、そして低コストで実現
DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales
August 2, 2023
著者: Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He
cs.AI
要旨
ChatGPTのようなモデルは、要約やコーディングから翻訳まで、人工知能のさまざまな応用分野において革命をもたらし、人間の性能に匹敵するかそれを上回る成果を上げています。しかし、現在の状況では、特に数十億パラメータ規模でのトレーニングにおいて、これらの強力なモデルに対するアクセス可能で効率的かつコスト効果の高いエンドツーエンドのRLHF(人間のフィードバックを用いた強化学習)トレーニングパイプラインが不足しています。本論文では、DeepSpeed-Chatという新しいシステムを紹介します。このシステムはRLHFトレーニングを民主化し、AIコミュニティにとってアクセス可能なものとします。DeepSpeed-Chatは、以下の3つの主要な機能を提供します:ChatGPTのようなモデルに対する使いやすいトレーニングおよび推論体験、InstructGPTのトレーニングパイプラインを再現するDeepSpeed-RLHFパイプライン、そしてトレーニングと推論のためのさまざまな最適化を統合した堅牢なDeepSpeed-RLHFシステムです。このシステムは、比類のない効率性とスケーラビリティを実現し、数百億パラメータのモデルを記録的な時間で、かつ従来のコストの一部でトレーニングすることを可能にします。この開発により、DeepSpeed-Chatは、リソースが限られたデータサイエンティストでも高度なRLHFトレーニングに広くアクセスできる道を開き、AI分野におけるイノベーションとさらなる発展を促進します。
English
ChatGPT-like models have revolutionized various applications in artificial
intelligence, from summarization and coding to translation, matching or even
surpassing human performance. However, the current landscape lacks an
accessible, efficient, and cost-effective end-to-end RLHF (Reinforcement
Learning with Human Feedback) training pipeline for these powerful models,
particularly when training at the scale of billions of parameters. This paper
introduces DeepSpeed-Chat, a novel system that democratizes RLHF training,
making it accessible to the AI community. DeepSpeed-Chat offers three key
capabilities: an easy-to-use training and inference experience for ChatGPT-like
models, a DeepSpeed-RLHF pipeline that replicates the training pipeline from
InstructGPT, and a robust DeepSpeed-RLHF system that combines various
optimizations for training and inference in a unified way. The system delivers
unparalleled efficiency and scalability, enabling training of models with
hundreds of billions of parameters in record time and at a fraction of the
cost. With this development, DeepSpeed-Chat paves the way for broader access to
advanced RLHF training, even for data scientists with limited resources,
thereby fostering innovation and further development in the field of AI.