ChatPaper.aiChatPaper

ShiftAddLLM : Accélération des LLM pré-entraînés via une reparamétrisation post-entraînement sans multiplication

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization

June 10, 2024
Auteurs: Haoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi, Xiaofan Zhang, Souvik Kundu, Amir Yazdanbakhsh, Yingyan Lin
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré des performances impressionnantes sur les tâches linguistiques, mais rencontrent des difficultés lorsqu'ils sont déployés sur des dispositifs à ressources limitées en raison de leur nombre élevé de paramètres et de leur dépendance aux multiplications denses, entraînant des demandes de mémoire élevées et des goulots d'étranglement en latence. La reparamétrisation par décalage et addition offre une solution prometteuse en remplaçant les multiplications coûteuses par des primitives adaptées au matériel, à la fois dans les couches d'attention et les couches de perceptron multicouche (MLP) d'un LLM. Cependant, les techniques actuelles de reparamétrisation nécessitent un entraînement à partir de zéro ou un ajustement complet des paramètres pour restaurer la précision, ce qui est coûteux en ressources pour les LLMs. Pour résoudre ce problème, nous proposons d'accélérer les LLMs pré-entraînés grâce à une reparamétrisation par décalage et addition après entraînement, créant ainsi des modèles efficaces sans multiplication, appelés ShiftAddLLM. Plus précisément, nous quantifions chaque matrice de poids en matrices binaires associées à des facteurs d'échelle par groupe. Les multiplications associées sont reparamétrisées en (1) décalages entre les activations et les facteurs d'échelle et (2) requêtes et additions selon les matrices binaires. Pour réduire la perte de précision, nous présentons une méthode d'optimisation multi-objectif visant à minimiser les erreurs de reparamétrisation des poids et des activations de sortie. De plus, en nous basant sur la sensibilité variable des couches à la reparamétrisation, nous développons une stratégie automatisée d'allocation de bits pour réduire davantage l'utilisation de la mémoire et la latence. Les expériences sur cinq familles de LLMs et huit tâches valident systématiquement l'efficacité de ShiftAddLLM, obtenant des améliorations moyennes de perplexité de 5,6 et 22,7 points à une latence comparable ou inférieure par rapport aux LLMs quantifiés les plus compétitifs à 3 et 2 bits respectivement, ainsi que des réductions de plus de 80 % de la mémoire et de l'énergie par rapport aux LLMs originaux. Les codes et modèles sont disponibles à l'adresse https://github.com/GATECH-EIC/ShiftAddLLM.
English
Large language models (LLMs) have shown impressive performance on language tasks but face challenges when deployed on resource-constrained devices due to their extensive parameters and reliance on dense multiplications, resulting in high memory demands and latency bottlenecks. Shift-and-add reparameterization offers a promising solution by replacing costly multiplications with hardware-friendly primitives in both the attention and multi-layer perceptron (MLP) layers of an LLM. However, current reparameterization techniques require training from scratch or full parameter fine-tuning to restore accuracy, which is resource-intensive for LLMs. To address this, we propose accelerating pretrained LLMs through post-training shift-and-add reparameterization, creating efficient multiplication-free models, dubbed ShiftAddLLM. Specifically, we quantize each weight matrix into binary matrices paired with group-wise scaling factors. The associated multiplications are reparameterized into (1) shifts between activations and scaling factors and (2) queries and adds according to the binary matrices. To reduce accuracy loss, we present a multi-objective optimization method to minimize both weight and output activation reparameterization errors. Additionally, based on varying sensitivity across layers to reparameterization, we develop an automated bit allocation strategy to further reduce memory usage and latency. Experiments on five LLM families and eight tasks consistently validate the effectiveness of ShiftAddLLM, achieving average perplexity improvements of 5.6 and 22.7 points at comparable or lower latency compared to the most competitive quantized LLMs at 3 and 2 bits, respectively, and more than 80% memory and energy reductions over the original LLMs. Codes and models are available at https://github.com/GATECH-EIC/ShiftAddLLM.

Summary

AI-Generated Summary

PDF160December 8, 2024