Wie gut sind niedrigbit-quantisierte LLaMA3-Modelle? Eine empirische Studie.
How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study
April 22, 2024
Autoren: Wei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno
cs.AI
Zusammenfassung
Meta's LLaMA-Familie ist zu einer der leistungsstärksten Open-Source-Serien von Large Language Models (LLM) geworden. Insbesondere wurden kürzlich LLaMA3-Modelle veröffentlicht, die beeindruckende Leistungen über verschiedene Bereiche hinweg erzielen, dank des sehr umfangreichen Vortrainings mit über 15 Billionen Tokens an Daten. Angesichts der breiten Anwendung der Niedrigbit-Quantisierung für LLMs in ressourcenbeschränkten Szenarien untersuchen wir die Fähigkeiten von LLaMA3, wenn sie auf eine niedrige Bit-Breite quantisiert werden. Diese Untersuchung hat das Potenzial, neue Erkenntnisse und Herausforderungen für die Niedrigbit-Quantisierung von LLaMA3 und anderen zukünftigen LLMs aufzudecken, insbesondere bei der Bewältigung von Leistungsverschlechterungsproblemen, die bei der LLM-Kompression auftreten. Konkret bewerten wir die 10 bestehenden Post-Training-Quantisierungs- und LoRA-Feinabstimmungsmethoden von LLaMA3 mit 1-8 Bits und verschiedenen Datensätzen, um umfassend die Leistung der Niedrigbit-Quantisierung von LLaMA3 aufzuzeigen. Unsere Experimente zeigen, dass LLaMA3 in diesen Szenarien nach wie vor eine nicht zu vernachlässigende Verschlechterung aufweist, insbesondere bei extrem niedriger Bit-Breite. Dies unterstreicht die signifikante Leistungslücke bei niedriger Bit-Breite, die in zukünftigen Entwicklungen überwunden werden muss. Wir erwarten, dass diese empirische Studie wertvoll sein wird, um zukünftige Modelle voranzubringen und die LLMs zu einer niedrigeren Bit-Breite mit höherer Genauigkeit für die praktische Anwendung zu bringen. Unser Projekt ist auf https://github.com/Macaronlin/LLaMA3-Quantization veröffentlicht und quantisierte LLaMA3-Modelle sind unter https://huggingface.co/LLMQ verfügbar.
English
Meta's LLaMA family has become one of the most powerful open-source Large
Language Model (LLM) series. Notably, LLaMA3 models have recently been released
and achieve impressive performance across various with super-large scale
pre-training on over 15T tokens of data. Given the wide application of low-bit
quantization for LLMs in resource-limited scenarios, we explore LLaMA3's
capabilities when quantized to low bit-width. This exploration holds the
potential to unveil new insights and challenges for low-bit quantization of
LLaMA3 and other forthcoming LLMs, especially in addressing performance
degradation problems that suffer in LLM compression. Specifically, we evaluate
the 10 existing post-training quantization and LoRA-finetuning methods of
LLaMA3 on 1-8 bits and diverse datasets to comprehensively reveal LLaMA3's
low-bit quantization performance. Our experiment results indicate that LLaMA3
still suffers non-negligent degradation in these scenarios, especially in
ultra-low bit-width. This highlights the significant performance gap under low
bit-width that needs to be bridged in future developments. We expect that this
empirical study will prove valuable in advancing future models, pushing the
LLMs to lower bit-width with higher accuracy for being practical. Our project
is released on https://github.com/Macaronlin/LLaMA3-Quantization and quantized
LLaMA3 models are released in https://huggingface.co/LLMQ.Summary
AI-Generated Summary