Quanto sono efficaci i modelli LLaMA3 quantizzati a basso bit? Uno studio empirico
How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study
April 22, 2024
Autori: Wei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno
cs.AI
Abstract
La famiglia LLaMA di Meta è diventata una delle serie di modelli linguistici di grandi dimensioni (LLM) open-source più potenti. In particolare, i modelli LLaMA3 sono stati recentemente rilasciati e raggiungono prestazioni impressionanti grazie a un pre-addestramento su larga scala con oltre 15T di token di dati. Considerando l'ampia applicazione della quantizzazione a basso bit per gli LLM in scenari con risorse limitate, esploriamo le capacità di LLaMA3 quando viene quantizzato a bassa larghezza di bit. Questa esplorazione ha il potenziale di rivelare nuove intuizioni e sfide per la quantizzazione a basso bit di LLaMA3 e di altri futuri LLM, specialmente nel risolvere i problemi di degradazione delle prestazioni che si verificano nella compressione degli LLM. Nello specifico, valutiamo i 10 metodi esistenti di quantizzazione post-addestramento e fine-tuning LoRA di LLaMA3 su 1-8 bit e su diversi dataset per rivelare in modo completo le prestazioni di quantizzazione a basso bit di LLaMA3. I risultati dei nostri esperimenti indicano che LLaMA3 subisce ancora una degradazione non trascurabile in questi scenari, specialmente a larghezze di bit ultra-basse. Ciò evidenzia il significativo divario di prestazioni a bassa larghezza di bit che deve essere colmato nei futuri sviluppi. Ci aspettiamo che questo studio empirico si riveli prezioso per avanzare i futuri modelli, spingendo gli LLM verso larghezze di bit più basse con una maggiore accuratezza per essere pratici. Il nostro progetto è rilasciato su https://github.com/Macaronlin/LLaMA3-Quantization e i modelli quantizzati di LLaMA3 sono rilasciati su https://huggingface.co/LLMQ.
English
Meta's LLaMA family has become one of the most powerful open-source Large
Language Model (LLM) series. Notably, LLaMA3 models have recently been released
and achieve impressive performance across various with super-large scale
pre-training on over 15T tokens of data. Given the wide application of low-bit
quantization for LLMs in resource-limited scenarios, we explore LLaMA3's
capabilities when quantized to low bit-width. This exploration holds the
potential to unveil new insights and challenges for low-bit quantization of
LLaMA3 and other forthcoming LLMs, especially in addressing performance
degradation problems that suffer in LLM compression. Specifically, we evaluate
the 10 existing post-training quantization and LoRA-finetuning methods of
LLaMA3 on 1-8 bits and diverse datasets to comprehensively reveal LLaMA3's
low-bit quantization performance. Our experiment results indicate that LLaMA3
still suffers non-negligent degradation in these scenarios, especially in
ultra-low bit-width. This highlights the significant performance gap under low
bit-width that needs to be bridged in future developments. We expect that this
empirical study will prove valuable in advancing future models, pushing the
LLMs to lower bit-width with higher accuracy for being practical. Our project
is released on https://github.com/Macaronlin/LLaMA3-Quantization and quantized
LLaMA3 models are released in https://huggingface.co/LLMQ.