EasyQuant: Un Algoritmo Efficiente di Quantizzazione Senza Dati per LLM

Abstract

I grandi modelli linguistici (LLM) si sono dimostrati notevolmente superiori ai metodi convenzionali in vari compiti. Tuttavia, i loro costosi calcoli e gli elevati requisiti di memoria ne rendono difficile il dispiegamento. La quantizzazione del modello è un metodo efficace per ridurre questo sovraccarico. Il problema è che nella maggior parte dei lavori precedenti, il modello quantizzato è stato calibrato utilizzando pochi campioni dei dati di addestramento, il che potrebbe influenzare la generalizzazione degli LLM quantizzati a casi e compiti sconosciuti. Pertanto, in questo lavoro, esploriamo una domanda importante: possiamo progettare un metodo di quantizzazione indipendente dai dati per gli LLM che garantisca le loro prestazioni di generalizzazione? In questo lavoro, proponiamo EasyQuant, un algoritmo di quantizzazione solo dei pesi, senza addestramento e indipendente dai dati, per gli LLM. La nostra osservazione indica che due fattori: i valori anomali nei pesi e gli intervalli di quantizzazione, sono essenziali per ridurre l'errore di quantizzazione. Pertanto, in EasyQuant, lasciamo invariati i valori anomali (meno dell'1%) e ottimizziamo l'intervallo di quantizzazione per ridurre l'errore di ricostruzione. Con questi metodi, sorprendentemente scopriamo che EasyQuant raggiunge prestazioni comparabili al modello originale. Poiché EasyQuant non dipende da alcun dato di addestramento, le prestazioni di generalizzazione degli LLM quantizzati sono garantite in modo sicuro. Inoltre, EasyQuant può essere implementato in parallelo, in modo che il modello quantizzato possa essere ottenuto in pochi minuti anche per LLM con oltre 100 miliardi di parametri. Per quanto ne sappiamo, siamo i primi a ottenere prestazioni di quantizzazione quasi prive di perdite per gli LLM in un contesto indipendente dai dati, e il nostro algoritmo è oltre 10 volte più veloce rispetto ai metodi dipendenti dai dati.

English

Large language models (LLMs) have proven to be very superior to conventional methods in various tasks. However, their expensive computations and high memory requirements are prohibitive for deployment. Model quantization is an effective method for reducing this overhead. The problem is that in most previous works, the quantized model was calibrated using few samples from the training data, which might affect the generalization of the quantized LLMs to unknown cases and tasks. Hence in this work, we explore an important question: Can we design a data-independent quantization method for LLMs to guarantee its generalization performance? In this work, we propose EasyQuant, a training-free and data-independent weight-only quantization algorithm for LLMs. Our observation indicates that two factors: outliers in the weight and quantization ranges, are essential for reducing the quantization error. Therefore, in EasyQuant, we leave the outliers (less than 1%) unchanged and optimize the quantization range to reduce the reconstruction error. With these methods, we surprisingly find that EasyQuant achieves comparable performance to the original model. Since EasyQuant does not depend on any training data, the generalization performance of quantized LLMs is safely guaranteed. Moreover, EasyQuant can be implemented in parallel so that the quantized model could be attained in a few minutes even for LLMs over 100B. To our best knowledge, we are the first work that achieves almost lossless quantization performance for LLMs under a data-independent setting and our algorithm runs over 10 times faster than the data-dependent methods.

EasyQuant: Un Algoritmo Efficiente di Quantizzazione Senza Dati per LLM

EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs

Abstract

Support