ChatPaper.aiChatPaper

Scalify : propagation d'échelle pour un entraînement efficace de modèles de langage en basse précision

Scalify: scale propagation for efficient low-precision LLM training

July 24, 2024
Auteurs: Paul Balança, Sam Hosegood, Carlo Luschi, Andrew Fitzgibbon
cs.AI

Résumé

Les formats de faible précision tels que le float8 ont été introduits dans les matériels accélérés pour l'apprentissage automatique afin d'améliorer l'efficacité computationnelle lors de l'entraînement et de l'inférence des grands modèles de langage. Cependant, leur adoption par la communauté du ML a été ralentie par les techniques complexes, et parfois fragiles, nécessaires pour atteindre la précision d'entraînement des formats de plus haute précision. Dans ce travail, nous présentons Scalify, un paradigme de propagation d'échelle de bout en bout pour les graphes de calcul, généralisant et formalisant les méthodes existantes de mise à l'échelle des tenseurs. Les résultats expérimentaux montrent que Scalify prend en charge nativement la multiplication matricielle en float8 et la représentation des gradients, ainsi que le stockage des états de l'optimiseur en float16. Notre implémentation de Scalify dans JAX est open-source et disponible à l'adresse suivante : https://github.com/graphcore-research/jax-scalify.
English
Low-precision formats such as float8 have been introduced in machine learning accelerated hardware to improve computational efficiency for large language models training and inference. Nevertheless, adoption by the ML community has been slowed down by the complex, and sometimes brittle, techniques required to match higher precision training accuracy. In this work, we present Scalify, a end-to-end scale propagation paradigm for computational graphs, generalizing and formalizing existing tensor scaling methods. Experiment results show that Scalify supports out-of-the-box float8 matrix multiplication and gradients representation, as well as float16 optimizer state storage. Our JAX implementation of Scalify is open-sourced at https://github.com/graphcore-research/jax-scalify

Summary

AI-Generated Summary

PDF132November 28, 2024