ShiftAddLLM: Beschleunigung vortrainierter LLMs durch post-training Multiplikationslose Reparametrisierung

papers.abstract

Große Sprachmodelle (LLMs) haben beeindruckende Leistungen bei Sprachaufgaben gezeigt, stehen jedoch vor Herausforderungen bei der Bereitstellung auf ressourcenbeschränkten Geräten aufgrund ihrer umfangreichen Parameter und der Abhängigkeit von dichten Multiplikationen, was zu hohen Speicheranforderungen und Latenzengpässen führt. Die Reparametrisierung durch Verschieben und Addieren bietet eine vielversprechende Lösung, indem teure Multiplikationen in hardwarefreundliche Primitiven in den Aufmerksamkeits- und Mehrschichtperzeptron (MLP)-Schichten eines LLMs ersetzt werden. Aktuelle Reparametrisierungstechniken erfordern jedoch ein Training von Grund auf oder eine vollständige Feinabstimmung der Parameter, um die Genauigkeit wiederherzustellen, was für LLMs ressourcenintensiv ist. Um dies zu lösen, schlagen wir vor, vortrainierte LLMs durch nachträgliches Training mit Verschieben-und-Addieren-Reparametrisierung zu beschleunigen und effiziente Multiplikationsfreie Modelle zu erstellen, genannt ShiftAddLLM. Konkret quantisieren wir jede Gewichtsmatrix in binäre Matrizen, die mit gruppenweisen Skalierungsfaktoren gepaart sind. Die zugehörigen Multiplikationen werden in (1) Verschiebungen zwischen Aktivierungen und Skalierungsfaktoren und (2) Abfragen und Additionen gemäß den binären Matrizen reparametrisiert. Um den Genauigkeitsverlust zu reduzieren, präsentieren wir eine Multi-Objektiv-Optimierungsmethode, um sowohl Gewichts- als auch Ausgangsaktivierungsreparametrisierungsfehler zu minimieren. Darüber hinaus entwickeln wir basierend auf unterschiedlichen Empfindlichkeiten in den Schichten gegenüber der Reparametrisierung eine automatisierte Bit-Allokationsstrategie, um den Speicherverbrauch und die Latenz weiter zu reduzieren. Experimente mit fünf LLM-Familien und acht Aufgaben bestätigen konsistent die Wirksamkeit von ShiftAddLLM, wobei durchschnittliche Verbesserungen der Verwirrung von 5,6 bzw. 22,7 Punkten bei vergleichbarer oder niedrigerer Latenz im Vergleich zu den wettbewerbsfähigsten quantisierten LLMs mit 3 bzw. 2 Bits erzielt werden, sowie mehr als 80% Speicher- und Energieeinsparungen gegenüber den originalen LLMs. Codes und Modelle sind verfügbar unter https://github.com/GATECH-EIC/ShiftAddLLM.

English

Large language models (LLMs) have shown impressive performance on language tasks but face challenges when deployed on resource-constrained devices due to their extensive parameters and reliance on dense multiplications, resulting in high memory demands and latency bottlenecks. Shift-and-add reparameterization offers a promising solution by replacing costly multiplications with hardware-friendly primitives in both the attention and multi-layer perceptron (MLP) layers of an LLM. However, current reparameterization techniques require training from scratch or full parameter fine-tuning to restore accuracy, which is resource-intensive for LLMs. To address this, we propose accelerating pretrained LLMs through post-training shift-and-add reparameterization, creating efficient multiplication-free models, dubbed ShiftAddLLM. Specifically, we quantize each weight matrix into binary matrices paired with group-wise scaling factors. The associated multiplications are reparameterized into (1) shifts between activations and scaling factors and (2) queries and adds according to the binary matrices. To reduce accuracy loss, we present a multi-objective optimization method to minimize both weight and output activation reparameterization errors. Additionally, based on varying sensitivity across layers to reparameterization, we develop an automated bit allocation strategy to further reduce memory usage and latency. Experiments on five LLM families and eight tasks consistently validate the effectiveness of ShiftAddLLM, achieving average perplexity improvements of 5.6 and 22.7 points at comparable or lower latency compared to the most competitive quantized LLMs at 3 and 2 bits, respectively, and more than 80% memory and energy reductions over the original LLMs. Codes and models are available at https://github.com/GATECH-EIC/ShiftAddLLM.

ShiftAddLLM: Beschleunigung vortrainierter LLMs durch post-training Multiplikationslose Reparametrisierung

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization

papers.abstract

Support