ChatPaper.aiChatPaper

DeepSpeed-Chat: 모든 규모에서 ChatGPT와 유사한 모델의 RLHF 학습을 쉽고 빠르며 경제적으로 수행하기

DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales

August 2, 2023
저자: Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He
cs.AI

초록

ChatGPT와 같은 모델들은 요약, 코딩, 번역 등 다양한 인공지능 응용 분야에서 혁명을 일으키며 인간의 성능을 따라잡거나 이를 뛰어넘는 성과를 보여주고 있습니다. 그러나 현재의 환경에서는 이러한 강력한 모델들, 특히 수십억 개의 파라미터 규모로 학습할 때 접근 가능하고 효율적이며 비용 효율적인 종단 간 RLHF(Reinforcement Learning with Human Feedback) 학습 파이프라인이 부족한 실정입니다. 본 논문은 RLHF 학습을 민주화하여 AI 커뮤니티가 더 쉽게 접근할 수 있도록 하는 새로운 시스템인 DeepSpeed-Chat을 소개합니다. DeepSpeed-Chat은 세 가지 주요 기능을 제공합니다: ChatGPT와 같은 모델을 위한 사용하기 쉬운 학습 및 추론 환경, InstructGPT의 학습 파이프라인을 재현하는 DeepSpeed-RLHF 파이프라인, 그리고 학습과 추론을 위한 다양한 최적화 기술을 통합한 강력한 DeepSpeed-RLHF 시스템입니다. 이 시스템은 전례 없는 효율성과 확장성을 제공하여 수천억 개의 파라미터를 가진 모델을 기록적인 시간과 저렴한 비용으로 학습할 수 있게 합니다. 이러한 발전을 통해 DeepSpeed-Chat은 제한된 자원을 가진 데이터 과학자들도 고급 RLHF 학습에 더 쉽게 접근할 수 있도록 하여, AI 분야의 혁신과 추가 발전을 촉진할 것입니다.
English
ChatGPT-like models have revolutionized various applications in artificial intelligence, from summarization and coding to translation, matching or even surpassing human performance. However, the current landscape lacks an accessible, efficient, and cost-effective end-to-end RLHF (Reinforcement Learning with Human Feedback) training pipeline for these powerful models, particularly when training at the scale of billions of parameters. This paper introduces DeepSpeed-Chat, a novel system that democratizes RLHF training, making it accessible to the AI community. DeepSpeed-Chat offers three key capabilities: an easy-to-use training and inference experience for ChatGPT-like models, a DeepSpeed-RLHF pipeline that replicates the training pipeline from InstructGPT, and a robust DeepSpeed-RLHF system that combines various optimizations for training and inference in a unified way. The system delivers unparalleled efficiency and scalability, enabling training of models with hundreds of billions of parameters in record time and at a fraction of the cost. With this development, DeepSpeed-Chat paves the way for broader access to advanced RLHF training, even for data scientists with limited resources, thereby fostering innovation and further development in the field of AI.
PDF463December 15, 2024