ChatPaper.aiChatPaper

Optimisation de l'entraînement de grands modèles de langage en utilisant la quantification FP4.

Optimizing Large Language Model Training Using FP4 Quantization

January 28, 2025
Auteurs: Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng
cs.AI

Résumé

Les demandes computationnelles croissantes pour l'entraînement de grands modèles de langage (LLMs) nécessitent des méthodes plus efficaces. L'entraînement quantifié présente une solution prometteuse en permettant des opérations arithmétiques à faible nombre de bits pour réduire ces coûts. Alors que la précision FP8 a démontré sa faisabilité, l'exploitation du FP4 reste un défi en raison d'erreurs de quantification significatives et d'une capacité de représentation limitée. Ce travail présente le premier cadre d'entraînement FP4 pour les LLMs, abordant ces défis avec deux innovations clés : un estimateur de quantification différenciable pour des mises à jour précises des poids et une stratégie de pincement et de compensation des valeurs aberrantes pour prévenir l'effondrement des activations. Pour garantir la stabilité, le cadre intègre un schéma d'entraînement à précision mixte et une quantification par vecteur. Les résultats expérimentaux montrent que notre cadre FP4 atteint une précision comparable à BF16 et FP8, avec une dégradation minimale, s'adaptant efficacement aux LLMs de 13 milliards de paramètres entraînés sur jusqu'à 100 milliards de jetons. Avec l'émergence de matériels de nouvelle génération prenant en charge le FP4, notre cadre pose les bases pour un entraînement efficace à ultra-faible précision.
English
The growing computational demands of training large language models (LLMs) necessitate more efficient methods. Quantized training presents a promising solution by enabling low-bit arithmetic operations to reduce these costs. While FP8 precision has demonstrated feasibility, leveraging FP4 remains a challenge due to significant quantization errors and limited representational capacity. This work introduces the first FP4 training framework for LLMs, addressing these challenges with two key innovations: a differentiable quantization estimator for precise weight updates and an outlier clamping and compensation strategy to prevent activation collapse. To ensure stability, the framework integrates a mixed-precision training scheme and vector-wise quantization. Experimental results demonstrate that our FP4 framework achieves accuracy comparable to BF16 and FP8, with minimal degradation, scaling effectively to 13B-parameter LLMs trained on up to 100B tokens. With the emergence of next-generation hardware supporting FP4, our framework sets a foundation for efficient ultra-low precision training.

Summary

AI-Generated Summary

PDF382January 29, 2025