DeepSpeed-Chat: Treinamento de RLHF Fácil, Rápido e Acessível para Modelos do Tipo ChatGPT em Todas as Escalas

Resumo

Modelos semelhantes ao ChatGPT revolucionaram diversas aplicações em inteligência artificial, desde sumarização e codificação até tradução, equiparando ou até superando o desempenho humano. No entanto, o cenário atual carece de um pipeline de treinamento RLHF (Reinforcement Learning with Human Feedback) acessível, eficiente e econômico para esses modelos poderosos, especialmente quando o treinamento envolve bilhões de parâmetros. Este artigo apresenta o DeepSpeed-Chat, um sistema inovador que democratiza o treinamento RLHF, tornando-o acessível à comunidade de IA. O DeepSpeed-Chat oferece três capacidades principais: uma experiência de treinamento e inferência fácil de usar para modelos semelhantes ao ChatGPT, um pipeline DeepSpeed-RLHF que replica o pipeline de treinamento do InstructGPT e um sistema robusto DeepSpeed-RLHF que combina várias otimizações para treinamento e inferência de forma unificada. O sistema proporciona eficiência e escalabilidade incomparáveis, permitindo o treinamento de modelos com centenas de bilhões de parâmetros em tempo recorde e a uma fração do custo. Com esse avanço, o DeepSpeed-Chat abre caminho para um acesso mais amplo ao treinamento RLHF avançado, mesmo para cientistas de dados com recursos limitados, promovendo assim a inovação e o desenvolvimento contínuo no campo da IA.

English

ChatGPT-like models have revolutionized various applications in artificial intelligence, from summarization and coding to translation, matching or even surpassing human performance. However, the current landscape lacks an accessible, efficient, and cost-effective end-to-end RLHF (Reinforcement Learning with Human Feedback) training pipeline for these powerful models, particularly when training at the scale of billions of parameters. This paper introduces DeepSpeed-Chat, a novel system that democratizes RLHF training, making it accessible to the AI community. DeepSpeed-Chat offers three key capabilities: an easy-to-use training and inference experience for ChatGPT-like models, a DeepSpeed-RLHF pipeline that replicates the training pipeline from InstructGPT, and a robust DeepSpeed-RLHF system that combines various optimizations for training and inference in a unified way. The system delivers unparalleled efficiency and scalability, enabling training of models with hundreds of billions of parameters in record time and at a fraction of the cost. With this development, DeepSpeed-Chat paves the way for broader access to advanced RLHF training, even for data scientists with limited resources, thereby fostering innovation and further development in the field of AI.

DeepSpeed-Chat: Treinamento de RLHF Fácil, Rápido e Acessível para Modelos do Tipo ChatGPT em Todas as Escalas

DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales

Resumo

Support