Entraînement en basse précision des grands modèles de langage : méthodes, défis et opportunités

papers.abstract

Les grands modèles de langage (LLMs) ont obtenu des performances impressionnantes dans divers domaines. Cependant, les importantes ressources matérielles nécessaires à leur entraînement constituent un obstacle majeur à l'efficacité et à l'évolutivité. Pour atténuer ce défi, les techniques d'entraînement en basse précision ont été largement adoptées, conduisant à des avancées notables en matière d'efficacité de l'entraînement. Malgré ces progrès, l'entraînement en basse précision implique plusieurs composants – tels que les poids, les activations et les gradients – chacun pouvant être représenté dans différents formats numériques. Cette diversité a créé un paysage fragmenté dans la recherche sur l'entraînement en basse précision, rendant difficile pour les chercheurs d'obtenir une vue d'ensemble unifiée du domaine. Cette étude propose une revue complète des méthodes existantes d'entraînement en basse précision. Pour organiser systématiquement ces approches, nous les catégorisons en trois groupes principaux basés sur leurs formats numériques sous-jacents, un facteur clé influençant la compatibilité matérielle, l'efficacité computationnelle et la facilité de référence pour les lecteurs. Les catégories sont : (1) les méthodes basées sur les nombres fixes et entiers, (2) les méthodes basées sur les nombres flottants, et (3) les méthodes basées sur des formats personnalisés. De plus, nous discutons des approches d'entraînement prenant en compte la quantification, qui partagent des similitudes clés avec l'entraînement en basse précision lors de la propagation avant. Enfin, nous mettons en lumière plusieurs directions de recherche prometteuses pour faire progresser ce domaine. Une collection des articles discutés dans cette étude est disponible sur https://github.com/Hao840/Awesome-Low-Precision-Training.

English

Large language models (LLMs) have achieved impressive performance across various domains. However, the substantial hardware resources required for their training present a significant barrier to efficiency and scalability. To mitigate this challenge, low-precision training techniques have been widely adopted, leading to notable advancements in training efficiency. Despite these gains, low-precision training involves several componentsx2013such as weights, activations, and gradientsx2013each of which can be represented in different numerical formats. The resulting diversity has created a fragmented landscape in low-precision training research, making it difficult for researchers to gain a unified overview of the field. This survey provides a comprehensive review of existing low-precision training methods. To systematically organize these approaches, we categorize them into three primary groups based on their underlying numerical formats, which is a key factor influencing hardware compatibility, computational efficiency, and ease of reference for readers. The categories are: (1) fixed-point and integer-based methods, (2) floating-point-based methods, and (3) customized format-based methods. Additionally, we discuss quantization-aware training approaches, which share key similarities with low-precision training during forward propagation. Finally, we highlight several promising research directions to advance this field. A collection of papers discussed in this survey is provided in https://github.com/Hao840/Awesome-Low-Precision-Training.

Entraînement en basse précision des grands modèles de langage : méthodes, défis et opportunités

Low-Precision Training of Large Language Models: Methods, Challenges, and Opportunities

papers.abstract

Support