Verso una Quantizzazione Post-Addestramento di Nuovo Livello per Trasformatori su Scala Iper-Dimensionata

Abstract

Con l'aumento della complessità dei modelli generativi di intelligenza artificiale, la quantizzazione post-addestramento (PTQ) è emersa come una soluzione promettente per il deployment di modelli su larga scala su dispositivi edge come smartphone e televisori. Tuttavia, gli schemi PTQ esistenti richiedono tempi e risorse considerevoli, il che potrebbe rappresentare un collo di bottiglia in situazioni reali in cui sono necessari aggiornamenti frequenti del modello e ottimizzazioni multiple degli iperparametri. Come alternativa economicamente vantaggiosa, sono stati proposti schemi PTQ one-shot. Tuttavia, le prestazioni sono in qualche modo limitate poiché non riescono a considerare la dipendenza inter-strato all'interno del modulo di attenzione, che è una caratteristica molto importante dei Transformer. In questo articolo, proponiamo quindi un nuovo algoritmo PTQ che bilancia accuratezza ed efficienza. L'idea chiave dell'algoritmo proposto, denominato aespa, è quella di eseguire la quantizzazione strato per strato per garantire efficienza, pur considerando la dipendenza cross-strato per preservare il punteggio di attenzione. Attraverso esperimenti estesi su vari modelli linguistici e analisi di complessità, dimostriamo che aespa è accurato ed efficiente nella quantizzazione dei modelli Transformer.

English

With the increasing complexity of generative AI models, post-training quantization (PTQ) has emerged as a promising solution for deploying hyper-scale models on edge devices such as mobile devices and TVs. Existing PTQ schemes, however, consume considerable time and resources, which could be a bottleneck in real situations where frequent model updates and multiple hyper-parameter tunings are required. As a cost-effective alternative, one-shot PTQ schemes have been proposed. Still, the performance is somewhat limited because they cannot consider the inter-layer dependency within the attention module, which is a very important feature of Transformers. In this paper, we thus propose a novel PTQ algorithm that balances accuracy and efficiency. The key idea of the proposed algorithm called aespa is to perform quantization layer-wise for efficiency while considering cross-layer dependency to preserve the attention score. Through extensive experiments on various language models and complexity analysis, we demonstrate that aespa is accurate and efficient in quantizing Transformer models.

Verso una Quantizzazione Post-Addestramento di Nuovo Livello per Trasformatori su Scala Iper-Dimensionata

Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers

Abstract

Support