FP8-LM: Training von FP8-großen Sprachmodellen

papers.abstract

In diesem Artikel untersuchen wir FP8-Datenformate mit niedriger Bitzahl für das effiziente Training großer Sprachmodelle (LLMs). Unsere zentrale Erkenntnis ist, dass die meisten Variablen, wie Gradienten und Optimiererzustände, beim Training von LLMs Datenformate mit niedriger Präzision verwenden können, ohne die Modellgenauigkeit zu beeinträchtigen und ohne Änderungen an den Hyperparametern zu erfordern. Konkret schlagen wir ein neues FP8-Framework für automatisches gemischtes Präzisionstraining von LLMs vor. Dieses Framework bietet drei Stufen der FP8-Nutzung, um das gemischte Präzisions- und verteilte parallele Training für LLMs zu optimieren. Es integriert schrittweise 8-Bit-Gradienten, Optimiererzustände und verteiltes Lernen in inkrementeller Weise. Experimentelle Ergebnisse zeigen, dass unser FP8-Framework für gemischtes Präzisionstraining beim Training des GPT-175B-Modells auf der H100-GPU-Plattform nicht nur eine bemerkenswerte Reduzierung des realen Speicherverbrauchs um 42 % erreichte, sondern auch 64 % schneller lief als das weit verbreitete BF16-Framework (d. h. Megatron-LM) und die Geschwindigkeit der Nvidia Transformer Engine um 17 % übertraf. Dies reduziert die Trainingskosten für große Basismodelle erheblich. Darüber hinaus ist unsere FP8-Methode für gemischtes Präzisionstraining generisch. Sie kann nahtlos auf andere Aufgaben wie das Instruktions-Finetuning von LLMs und Reinforcement Learning mit menschlichem Feedback angewendet werden, wodurch Einsparungen bei den Feinabstimmungskosten erzielt werden. Unser FP8-Framework für Training mit niedriger Präzision ist unter {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP} quelloffen verfügbar.

English

In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.

FP8-LM: Training von FP8-großen Sprachmodellen

FP8-LM: Training FP8 Large Language Models

papers.abstract

Support