ShiftAddLLM: Versnelling van voorgetrainde LLM's via herparameterisatie zonder vermenigvuldiging na training
ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization
June 10, 2024
Auteurs: Haoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi, Xiaofan Zhang, Souvik Kundu, Amir Yazdanbakhsh, Yingyan Lin
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) hebben indrukwekkende prestaties getoond op taalgerelateerde taken, maar worden geconfronteerd met uitdagingen wanneer ze worden ingezet op apparaten met beperkte bronnen vanwege hun uitgebreide parameters en afhankelijkheid van dichte vermenigvuldigingen, wat resulteert in hoge geheugeneisen en latentieproblemen. Shift-and-add herparameterisatie biedt een veelbelovende oplossing door kostbare vermenigvuldigingen te vervangen door hardwarevriendelijke primitieven in zowel de aandacht- als de multi-layer perceptron (MLP)-lagen van een LLM. Huidige herparameterisatietechnieken vereisen echter training vanaf nul of volledige parameterfine-tuning om de nauwkeurigheid te herstellen, wat resource-intensief is voor LLMs. Om dit aan te pakken, stellen we voor om vooraf getrainde LLMs te versnellen door post-training shift-and-add herparameterisatie, waardoor efficiënte vermenigvuldigingsvrije modellen worden gecreëerd, genaamd ShiftAddLLM. Specifiek kwantiseren we elke gewichtsmatrix in binaire matrices gepaard met groepsgewijze schalingsfactoren. De bijbehorende vermenigvuldigingen worden herparameteriseerd in (1) verschuivingen tussen activaties en schalingsfactoren en (2) queries en optellingen volgens de binaire matrices. Om nauwkeurigheidsverlies te verminderen, presenteren we een multi-objectieve optimalisatiemethode om zowel gewichts- als uitvoeractivatieherparameterisatiefouten te minimaliseren. Daarnaast ontwikkelen we, gebaseerd op variërende gevoeligheid over lagen voor herparameterisatie, een geautomatiseerde bitallocatiestrategie om geheugengebruik en latentie verder te verminderen. Experimenten op vijf LLM-families en acht taken valideren consistent de effectiviteit van ShiftAddLLM, met gemiddelde perplexiteitsverbeteringen van 5,6 en 22,7 punten bij vergelijkbare of lagere latentie in vergelijking met de meest competitieve gekwantiseerde LLMs op respectievelijk 3 en 2 bits, en meer dan 80% reductie in geheugen en energieverbruik ten opzichte van de originele LLMs. Codes en modellen zijn beschikbaar op https://github.com/GATECH-EIC/ShiftAddLLM.
English
Large language models (LLMs) have shown impressive performance on language
tasks but face challenges when deployed on resource-constrained devices due to
their extensive parameters and reliance on dense multiplications, resulting in
high memory demands and latency bottlenecks. Shift-and-add reparameterization
offers a promising solution by replacing costly multiplications with
hardware-friendly primitives in both the attention and multi-layer perceptron
(MLP) layers of an LLM. However, current reparameterization techniques require
training from scratch or full parameter fine-tuning to restore accuracy, which
is resource-intensive for LLMs. To address this, we propose accelerating
pretrained LLMs through post-training shift-and-add reparameterization,
creating efficient multiplication-free models, dubbed ShiftAddLLM.
Specifically, we quantize each weight matrix into binary matrices paired with
group-wise scaling factors. The associated multiplications are reparameterized
into (1) shifts between activations and scaling factors and (2) queries and
adds according to the binary matrices. To reduce accuracy loss, we present a
multi-objective optimization method to minimize both weight and output
activation reparameterization errors. Additionally, based on varying
sensitivity across layers to reparameterization, we develop an automated bit
allocation strategy to further reduce memory usage and latency. Experiments on
five LLM families and eight tasks consistently validate the effectiveness of
ShiftAddLLM, achieving average perplexity improvements of 5.6 and 22.7 points
at comparable or lower latency compared to the most competitive quantized LLMs
at 3 and 2 bits, respectively, and more than 80% memory and energy reductions
over the original LLMs. Codes and models are available at
https://github.com/GATECH-EIC/ShiftAddLLM.