ChatPaper.aiChatPaper

EasyQuant: Een efficiënt data-vrij kwantiseringsalgoritme voor grote taalmodellen (LLMs)

EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs

March 5, 2024
Auteurs: Hanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang
cs.AI

Samenvatting

Grote taalmmodellen (LLMs) hebben zich bewezen als aanzienlijk superieur ten opzichte van conventionele methoden in diverse taken. Hun dure berekeningen en hoge geheugeneisen zijn echter belemmerend voor implementatie. Modelkwantisatie is een effectieve methode om deze overhead te verminderen. Het probleem is dat in de meeste eerdere werken het gekwantiseerde model werd gekalibreerd met behulp van enkele voorbeelden uit de trainingsdata, wat de generalisatie van de gekwantiseerde LLMs naar onbekende gevallen en taken zou kunnen beïnvloeden. Daarom onderzoeken we in dit werk een belangrijke vraag: Kunnen we een data-onafhankelijke kwantisatiemethode voor LLMs ontwerpen om de generalisatieprestaties te garanderen? In dit werk stellen we EasyQuant voor, een trainingsvrij en data-onafhankelijk gewichtsgebaseerd kwantisatiealgoritme voor LLMs. Onze observatie geeft aan dat twee factoren: uitschieters in het gewicht en kwantisatiebereiken, essentieel zijn voor het verminderen van de kwantisatiefout. Daarom laten we in EasyQuant de uitschieters (minder dan 1%) ongewijzigd en optimaliseren we het kwantisatiebereik om de reconstructiefout te verminderen. Met deze methoden vinden we verrassend genoeg dat EasyQuant vergelijkbare prestaties bereikt als het originele model. Omdat EasyQuant niet afhankelijk is van enige trainingsdata, is de generalisatieprestatie van gekwantiseerde LLMs veilig gegarandeerd. Bovendien kan EasyQuant parallel worden geïmplementeerd, zodat het gekwantiseerde model in enkele minuten kan worden verkregen, zelfs voor LLMs met meer dan 100B. Voor zover wij weten, zijn wij het eerste werk dat bijna verliesvrije kwantisatieprestaties voor LLMs bereikt onder een data-onafhankelijke instelling en ons algoritme loopt meer dan 10 keer sneller dan de data-afhankelijke methoden.
English
Large language models (LLMs) have proven to be very superior to conventional methods in various tasks. However, their expensive computations and high memory requirements are prohibitive for deployment. Model quantization is an effective method for reducing this overhead. The problem is that in most previous works, the quantized model was calibrated using few samples from the training data, which might affect the generalization of the quantized LLMs to unknown cases and tasks. Hence in this work, we explore an important question: Can we design a data-independent quantization method for LLMs to guarantee its generalization performance? In this work, we propose EasyQuant, a training-free and data-independent weight-only quantization algorithm for LLMs. Our observation indicates that two factors: outliers in the weight and quantization ranges, are essential for reducing the quantization error. Therefore, in EasyQuant, we leave the outliers (less than 1%) unchanged and optimize the quantization range to reduce the reconstruction error. With these methods, we surprisingly find that EasyQuant achieves comparable performance to the original model. Since EasyQuant does not depend on any training data, the generalization performance of quantized LLMs is safely guaranteed. Moreover, EasyQuant can be implemented in parallel so that the quantized model could be attained in a few minutes even for LLMs over 100B. To our best knowledge, we are the first work that achieves almost lossless quantization performance for LLMs under a data-independent setting and our algorithm runs over 10 times faster than the data-dependent methods.
PDF133February 7, 2026