ShiftAddLLM: Accelerazione di LLM Pre-addestrati tramite Riparametrizzazione Post-addestramento Senza Moltiplicazioni
ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization
June 10, 2024
Autori: Haoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi, Xiaofan Zhang, Souvik Kundu, Amir Yazdanbakhsh, Yingyan Lin
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato prestazioni impressionanti nei compiti linguistici, ma affrontano sfide quando vengono implementati su dispositivi con risorse limitate a causa del loro elevato numero di parametri e della dipendenza da moltiplicazioni dense, che comportano elevate richieste di memoria e colli di bottiglia nella latenza. La riformulazione shift-and-add offre una soluzione promettente sostituendo le costose moltiplicazioni con primitive hardware-friendly sia nei livelli di attenzione che nei livelli di perceptron multistrato (MLP) di un LLM. Tuttavia, le attuali tecniche di riformulazione richiedono un addestramento da zero o una messa a punto completa dei parametri per ripristinare l'accuratezza, il che è dispendioso in termini di risorse per gli LLM. Per affrontare questo problema, proponiamo di accelerare gli LLM pre-addestrati attraverso una riformulazione shift-and-add post-addestramento, creando modelli efficienti privi di moltiplicazioni, denominati ShiftAddLLM. Nello specifico, quantizziamo ogni matrice dei pesi in matrici binarie accoppiate a fattori di scala per gruppo. Le moltiplicazioni associate vengono riformulate in (1) spostamenti tra attivazioni e fattori di scala e (2) query e addizioni in base alle matrici binarie. Per ridurre la perdita di accuratezza, presentiamo un metodo di ottimizzazione multi-obiettivo per minimizzare sia gli errori di riformulazione dei pesi che quelli delle attivazioni in uscita. Inoltre, basandoci sulla sensibilità variabile tra i livelli alla riformulazione, sviluppiamo una strategia automatizzata di allocazione dei bit per ridurre ulteriormente l'uso della memoria e la latenza. Esperimenti su cinque famiglie di LLM e otto compiti convalidano costantemente l'efficacia di ShiftAddLLM, ottenendo miglioramenti medi nella perplessità di 5,6 e 22,7 punti a una latenza comparabile o inferiore rispetto agli LLM quantizzati più competitivi a 3 e 2 bit, rispettivamente, e riduzioni di oltre l'80% della memoria e dell'energia rispetto agli LLM originali. Codici e modelli sono disponibili su https://github.com/GATECH-EIC/ShiftAddLLM.
English
Large language models (LLMs) have shown impressive performance on language
tasks but face challenges when deployed on resource-constrained devices due to
their extensive parameters and reliance on dense multiplications, resulting in
high memory demands and latency bottlenecks. Shift-and-add reparameterization
offers a promising solution by replacing costly multiplications with
hardware-friendly primitives in both the attention and multi-layer perceptron
(MLP) layers of an LLM. However, current reparameterization techniques require
training from scratch or full parameter fine-tuning to restore accuracy, which
is resource-intensive for LLMs. To address this, we propose accelerating
pretrained LLMs through post-training shift-and-add reparameterization,
creating efficient multiplication-free models, dubbed ShiftAddLLM.
Specifically, we quantize each weight matrix into binary matrices paired with
group-wise scaling factors. The associated multiplications are reparameterized
into (1) shifts between activations and scaling factors and (2) queries and
adds according to the binary matrices. To reduce accuracy loss, we present a
multi-objective optimization method to minimize both weight and output
activation reparameterization errors. Additionally, based on varying
sensitivity across layers to reparameterization, we develop an automated bit
allocation strategy to further reduce memory usage and latency. Experiments on
five LLM families and eight tasks consistently validate the effectiveness of
ShiftAddLLM, achieving average perplexity improvements of 5.6 and 22.7 points
at comparable or lower latency compared to the most competitive quantized LLMs
at 3 and 2 bits, respectively, and more than 80% memory and energy reductions
over the original LLMs. Codes and models are available at
https://github.com/GATECH-EIC/ShiftAddLLM.