ChatPaper.aiChatPaper

BitNet : Mise à l'échelle de Transformers 1-bit pour les grands modèles de langage

BitNet: Scaling 1-bit Transformers for Large Language Models

October 17, 2023
Auteurs: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
cs.AI

Résumé

L'augmentation de la taille des grands modèles de langage a posé des défis pour leur déploiement et suscité des inquiétudes concernant leur impact environnemental en raison de leur forte consommation énergétique. Dans ce travail, nous présentons BitNet, une architecture Transformer scalable et stable à 1 bit, conçue pour les grands modèles de langage. Plus précisément, nous introduisons BitLinear comme remplacement direct de la couche nn.Linear afin d'entraîner des poids à 1 bit à partir de zéro. Les résultats expérimentaux en modélisation du langage montrent que BitNet atteint des performances compétitives tout en réduisant considérablement l'empreinte mémoire et la consommation d'énergie, par rapport aux méthodes de quantification à 8 bits de pointe et aux modèles de référence Transformer en FP16. De plus, BitNet présente une loi d'échelle similaire à celle des Transformers en pleine précision, suggérant son potentiel pour un passage à l'échelle efficace vers des modèles de langage encore plus grands, tout en conservant les avantages en termes d'efficacité et de performance.
English
The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive performance while substantially reducing memory footprint and energy consumption, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. Furthermore, BitNet exhibits a scaling law akin to full-precision Transformers, suggesting its potential for effective scaling to even larger language models while maintaining efficiency and performance benefits.
PDF10313December 15, 2024