FP8-LM : Entraînement de grands modèles de langage en FP8

papers.abstract

Dans cet article, nous explorons les formats de données à faible précision FP8 pour l'entraînement efficace des grands modèles de langage (LLM). Notre idée clé est que la plupart des variables, telles que les gradients et les états de l'optimiseur, dans l'entraînement des LLM peuvent utiliser des formats de données à faible précision sans compromettre la précision du modèle et sans nécessiter de modifications des hyperparamètres. Plus précisément, nous proposons un nouveau cadre de précision mixte automatique FP8 pour l'entraînement des LLM. Ce cadre offre trois niveaux d'utilisation du FP8 pour rationaliser l'entraînement en précision mixte et parallèle distribué pour les LLM. Il intègre progressivement les gradients en 8 bits, les états de l'optimiseur et l'apprentissage distribué de manière incrémentale. Les résultats expérimentaux montrent que, lors de l'entraînement du modèle GPT-175B sur la plateforme GPU H100, notre cadre d'entraînement en précision mixte FP8 a non seulement permis une réduction remarquable de 42 % de l'utilisation réelle de la mémoire, mais a également fonctionné 64 % plus vite que le cadre BF16 largement adopté (c'est-à-dire Megatron-LM), dépassant la vitesse du Nvidia Transformer Engine de 17 %. Cela réduit considérablement les coûts d'entraînement des grands modèles de base. De plus, notre méthodologie d'entraînement en précision mixte FP8 est générique. Elle peut être appliquée de manière transparente à d'autres tâches telles que le réglage d'instructions des LLM et l'apprentissage par renforcement avec retour humain, offrant des économies sur les dépenses de réglage fin. Notre cadre d'entraînement à faible précision FP8 est open-source à l'adresse {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.

English

In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.

FP8-LM : Entraînement de grands modèles de langage en FP8

FP8-LM: Training FP8 Large Language Models

papers.abstract

Support