Hoe goed zijn laagbit-gekwantiseerde LLaMA3-modellen? Een empirische studie
How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study
April 22, 2024
Auteurs: Wei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno
cs.AI
Samenvatting
De LLaMA-familie van Meta is uitgegroeid tot een van de krachtigste open-source Large Language Model (LLM)-series. Met name de LLaMA3-modellen zijn recentelijk vrijgegeven en behalen indrukwekkende prestaties op diverse gebieden dankzij supergrootschalige voorafgaande training op meer dan 15T tokens aan data. Gezien de brede toepassing van low-bit kwantisatie voor LLM's in scenario's met beperkte middelen, onderzoeken we de mogelijkheden van LLaMA3 wanneer het wordt gekwantiseerd naar lage bitbreedtes. Deze verkenning heeft het potentieel om nieuwe inzichten en uitdagingen te onthullen voor low-bit kwantisatie van LLaMA3 en andere toekomstige LLM's, vooral bij het aanpakken van prestatieverliesproblemen die optreden bij LLM-compressie. Specifiek evalueren we de 10 bestaande post-training kwantisatie- en LoRA-finetuningmethoden van LLaMA3 op 1-8 bits en diverse datasets om de low-bit kwantisatieprestaties van LLaMA3 uitgebreid te onthullen. Onze experimentele resultaten geven aan dat LLaMA3 nog steeds aanzienlijk prestatieverlies lijdt in deze scenario's, vooral bij ultra-lage bitbreedtes. Dit benadrukt de significante prestatiekloof onder lage bitbreedtes die in toekomstige ontwikkelingen moet worden overbrugd. We verwachten dat deze empirische studie waardevol zal blijken bij het bevorderen van toekomstige modellen, waardoor LLM's naar lagere bitbreedtes kunnen worden geduwd met hogere nauwkeurigheid voor praktische toepassingen. Ons project is vrijgegeven op https://github.com/Macaronlin/LLaMA3-Quantization en gekwantiseerde LLaMA3-modellen zijn vrijgegeven op https://huggingface.co/LLMQ.
English
Meta's LLaMA family has become one of the most powerful open-source Large
Language Model (LLM) series. Notably, LLaMA3 models have recently been released
and achieve impressive performance across various with super-large scale
pre-training on over 15T tokens of data. Given the wide application of low-bit
quantization for LLMs in resource-limited scenarios, we explore LLaMA3's
capabilities when quantized to low bit-width. This exploration holds the
potential to unveil new insights and challenges for low-bit quantization of
LLaMA3 and other forthcoming LLMs, especially in addressing performance
degradation problems that suffer in LLM compression. Specifically, we evaluate
the 10 existing post-training quantization and LoRA-finetuning methods of
LLaMA3 on 1-8 bits and diverse datasets to comprehensively reveal LLaMA3's
low-bit quantization performance. Our experiment results indicate that LLaMA3
still suffers non-negligent degradation in these scenarios, especially in
ultra-low bit-width. This highlights the significant performance gap under low
bit-width that needs to be bridged in future developments. We expect that this
empirical study will prove valuable in advancing future models, pushing the
LLMs to lower bit-width with higher accuracy for being practical. Our project
is released on https://github.com/Macaronlin/LLaMA3-Quantization and quantized
LLaMA3 models are released in https://huggingface.co/LLMQ.