ChatPaper.aiChatPaper

DeepSpeed-Chat: Einfache, schnelle und kostengünstige RLHF-Ausbildung von ChatGPT-ähnlichen Modellen in allen Größenordnungen

DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales

August 2, 2023
Autoren: Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He
cs.AI

Zusammenfassung

ChatGPT-ähnliche Modelle haben verschiedene Anwendungen in der künstlichen Intelligenz revolutioniert, von Zusammenfassungen und Programmierung bis hin zu Übersetzungen, wobei sie menschliche Leistungen erreichen oder sogar übertreffen. Allerdings fehlt im derzeitigen Umfeld eine zugängliche, effiziente und kostengünstige End-to-End-RLHF-Trainingspipeline (Reinforcement Learning with Human Feedback) für diese leistungsstarken Modelle, insbesondere beim Training im Maßstab von Milliarden Parametern. Dieses Papier stellt DeepSpeed-Chat vor, ein neuartiges System, das RLHF-Training demokratisiert und es der KI-Community zugänglich macht. DeepSpeed-Chat bietet drei Schlüsselfähigkeiten: eine benutzerfreundliche Trainings- und Inferenzerfahrung für ChatGPT-ähnliche Modelle, eine DeepSpeed-RLHF-Pipeline, die den Trainingsprozess von InstructGPT nachbildet, sowie ein robustes DeepSpeed-RLHF-System, das verschiedene Optimierungen für Training und Inferenz auf einheitliche Weise kombiniert. Das System bietet beispiellose Effizienz und Skalierbarkeit und ermöglicht das Training von Modellen mit Hunderten von Milliarden Parametern in Rekordzeit und zu einem Bruchteil der Kosten. Mit dieser Entwicklung ebnet DeepSpeed-Chat den Weg für einen breiteren Zugang zu fortgeschrittenem RLHF-Training, selbst für Datenwissenschaftler mit begrenzten Ressourcen, und fördert so Innovation und Weiterentwicklung im Bereich der KI.
English
ChatGPT-like models have revolutionized various applications in artificial intelligence, from summarization and coding to translation, matching or even surpassing human performance. However, the current landscape lacks an accessible, efficient, and cost-effective end-to-end RLHF (Reinforcement Learning with Human Feedback) training pipeline for these powerful models, particularly when training at the scale of billions of parameters. This paper introduces DeepSpeed-Chat, a novel system that democratizes RLHF training, making it accessible to the AI community. DeepSpeed-Chat offers three key capabilities: an easy-to-use training and inference experience for ChatGPT-like models, a DeepSpeed-RLHF pipeline that replicates the training pipeline from InstructGPT, and a robust DeepSpeed-RLHF system that combines various optimizations for training and inference in a unified way. The system delivers unparalleled efficiency and scalability, enabling training of models with hundreds of billions of parameters in record time and at a fraction of the cost. With this development, DeepSpeed-Chat paves the way for broader access to advanced RLHF training, even for data scientists with limited resources, thereby fostering innovation and further development in the field of AI.
PDF463December 15, 2024