Wie gut sind niedrigbit-quantisierte LLaMA3-Modelle? Eine empirische Studie.

Zusammenfassung

Meta's LLaMA-Familie ist zu einer der leistungsstärksten Open-Source-Serien von Large Language Models (LLM) geworden. Insbesondere wurden kürzlich LLaMA3-Modelle veröffentlicht, die beeindruckende Leistungen über verschiedene Bereiche hinweg erzielen, dank des sehr umfangreichen Vortrainings mit über 15 Billionen Tokens an Daten. Angesichts der breiten Anwendung der Niedrigbit-Quantisierung für LLMs in ressourcenbeschränkten Szenarien untersuchen wir die Fähigkeiten von LLaMA3, wenn sie auf eine niedrige Bit-Breite quantisiert werden. Diese Untersuchung hat das Potenzial, neue Erkenntnisse und Herausforderungen für die Niedrigbit-Quantisierung von LLaMA3 und anderen zukünftigen LLMs aufzudecken, insbesondere bei der Bewältigung von Leistungsverschlechterungsproblemen, die bei der LLM-Kompression auftreten. Konkret bewerten wir die 10 bestehenden Post-Training-Quantisierungs- und LoRA-Feinabstimmungsmethoden von LLaMA3 mit 1-8 Bits und verschiedenen Datensätzen, um umfassend die Leistung der Niedrigbit-Quantisierung von LLaMA3 aufzuzeigen. Unsere Experimente zeigen, dass LLaMA3 in diesen Szenarien nach wie vor eine nicht zu vernachlässigende Verschlechterung aufweist, insbesondere bei extrem niedriger Bit-Breite. Dies unterstreicht die signifikante Leistungslücke bei niedriger Bit-Breite, die in zukünftigen Entwicklungen überwunden werden muss. Wir erwarten, dass diese empirische Studie wertvoll sein wird, um zukünftige Modelle voranzubringen und die LLMs zu einer niedrigeren Bit-Breite mit höherer Genauigkeit für die praktische Anwendung zu bringen. Unser Projekt ist auf https://github.com/Macaronlin/LLaMA3-Quantization veröffentlicht und quantisierte LLaMA3-Modelle sind unter https://huggingface.co/LLMQ verfügbar.

English

Meta's LLaMA family has become one of the most powerful open-source Large Language Model (LLM) series. Notably, LLaMA3 models have recently been released and achieve impressive performance across various with super-large scale pre-training on over 15T tokens of data. Given the wide application of low-bit quantization for LLMs in resource-limited scenarios, we explore LLaMA3's capabilities when quantized to low bit-width. This exploration holds the potential to unveil new insights and challenges for low-bit quantization of LLaMA3 and other forthcoming LLMs, especially in addressing performance degradation problems that suffer in LLM compression. Specifically, we evaluate the 10 existing post-training quantization and LoRA-finetuning methods of LLaMA3 on 1-8 bits and diverse datasets to comprehensively reveal LLaMA3's low-bit quantization performance. Our experiment results indicate that LLaMA3 still suffers non-negligent degradation in these scenarios, especially in ultra-low bit-width. This highlights the significant performance gap under low bit-width that needs to be bridged in future developments. We expect that this empirical study will prove valuable in advancing future models, pushing the LLMs to lower bit-width with higher accuracy for being practical. Our project is released on https://github.com/Macaronlin/LLaMA3-Quantization and quantized LLaMA3 models are released in https://huggingface.co/LLMQ.

Wie gut sind niedrigbit-quantisierte LLaMA3-Modelle? Eine empirische Studie.

How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

Zusammenfassung

Support