Quanto sono efficaci i modelli LLaMA3 quantizzati a basso bit? Uno studio empirico

Abstract

La famiglia LLaMA di Meta è diventata una delle serie di modelli linguistici di grandi dimensioni (LLM) open-source più potenti. In particolare, i modelli LLaMA3 sono stati recentemente rilasciati e raggiungono prestazioni impressionanti grazie a un pre-addestramento su larga scala con oltre 15T di token di dati. Considerando l'ampia applicazione della quantizzazione a basso bit per gli LLM in scenari con risorse limitate, esploriamo le capacità di LLaMA3 quando viene quantizzato a bassa larghezza di bit. Questa esplorazione ha il potenziale di rivelare nuove intuizioni e sfide per la quantizzazione a basso bit di LLaMA3 e di altri futuri LLM, specialmente nel risolvere i problemi di degradazione delle prestazioni che si verificano nella compressione degli LLM. Nello specifico, valutiamo i 10 metodi esistenti di quantizzazione post-addestramento e fine-tuning LoRA di LLaMA3 su 1-8 bit e su diversi dataset per rivelare in modo completo le prestazioni di quantizzazione a basso bit di LLaMA3. I risultati dei nostri esperimenti indicano che LLaMA3 subisce ancora una degradazione non trascurabile in questi scenari, specialmente a larghezze di bit ultra-basse. Ciò evidenzia il significativo divario di prestazioni a bassa larghezza di bit che deve essere colmato nei futuri sviluppi. Ci aspettiamo che questo studio empirico si riveli prezioso per avanzare i futuri modelli, spingendo gli LLM verso larghezze di bit più basse con una maggiore accuratezza per essere pratici. Il nostro progetto è rilasciato su https://github.com/Macaronlin/LLaMA3-Quantization e i modelli quantizzati di LLaMA3 sono rilasciati su https://huggingface.co/LLMQ.

English

Meta's LLaMA family has become one of the most powerful open-source Large Language Model (LLM) series. Notably, LLaMA3 models have recently been released and achieve impressive performance across various with super-large scale pre-training on over 15T tokens of data. Given the wide application of low-bit quantization for LLMs in resource-limited scenarios, we explore LLaMA3's capabilities when quantized to low bit-width. This exploration holds the potential to unveil new insights and challenges for low-bit quantization of LLaMA3 and other forthcoming LLMs, especially in addressing performance degradation problems that suffer in LLM compression. Specifically, we evaluate the 10 existing post-training quantization and LoRA-finetuning methods of LLaMA3 on 1-8 bits and diverse datasets to comprehensively reveal LLaMA3's low-bit quantization performance. Our experiment results indicate that LLaMA3 still suffers non-negligent degradation in these scenarios, especially in ultra-low bit-width. This highlights the significant performance gap under low bit-width that needs to be bridged in future developments. We expect that this empirical study will prove valuable in advancing future models, pushing the LLMs to lower bit-width with higher accuracy for being practical. Our project is released on https://github.com/Macaronlin/LLaMA3-Quantization and quantized LLaMA3 models are released in https://huggingface.co/LLMQ.

Quanto sono efficaci i modelli LLaMA3 quantizzati a basso bit? Uno studio empirico

How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

Abstract

Support