À quel point les modèles LLaMA3 quantifiés en basse précision sont-ils performants ? Une étude empirique
How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study
April 22, 2024
Auteurs: Wei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno
cs.AI
Résumé
La famille LLaMA de Meta est devenue l'une des séries de modèles de langage de grande taille (LLM) open-source les plus puissantes. Notamment, les modèles LLaMA3 ont récemment été publiés et atteignent des performances impressionnantes grâce à un pré-entraînement à très grande échelle sur plus de 15 000 milliards de tokens. Compte tenu de l'application généralisée de la quantification en basse précision pour les LLM dans des scénarios à ressources limitées, nous explorons les capacités de LLaMA3 lorsqu'il est quantifié en basse précision. Cette exploration a le potentiel de révéler de nouvelles perspectives et défis pour la quantification en basse précision de LLaMA3 et d'autres LLM à venir, en particulier pour résoudre les problèmes de dégradation des performances rencontrés dans la compression des LLM. Plus précisément, nous évaluons les 10 méthodes existantes de quantification post-entraînement et de fine-tuning LoRA de LLaMA3 sur des précisions de 1 à 8 bits et sur divers ensembles de données pour révéler de manière exhaustive les performances de quantification en basse précision de LLaMA3. Nos résultats expérimentaux indiquent que LLaMA3 subit toujours une dégradation non négligeable dans ces scénarios, en particulier en très basse précision. Cela met en évidence un écart de performance significatif en basse précision qui doit être comblé dans les développements futurs. Nous espérons que cette étude empirique s'avérera précieuse pour faire progresser les modèles futurs, en poussant les LLM vers des précisions plus basses avec une plus grande précision pour une utilisation pratique. Notre projet est disponible sur https://github.com/Macaronlin/LLaMA3-Quantization et les modèles quantifiés de LLaMA3 sont publiés sur https://huggingface.co/LLMQ.
English
Meta's LLaMA family has become one of the most powerful open-source Large
Language Model (LLM) series. Notably, LLaMA3 models have recently been released
and achieve impressive performance across various with super-large scale
pre-training on over 15T tokens of data. Given the wide application of low-bit
quantization for LLMs in resource-limited scenarios, we explore LLaMA3's
capabilities when quantized to low bit-width. This exploration holds the
potential to unveil new insights and challenges for low-bit quantization of
LLaMA3 and other forthcoming LLMs, especially in addressing performance
degradation problems that suffer in LLM compression. Specifically, we evaluate
the 10 existing post-training quantization and LoRA-finetuning methods of
LLaMA3 on 1-8 bits and diverse datasets to comprehensively reveal LLaMA3's
low-bit quantization performance. Our experiment results indicate that LLaMA3
still suffers non-negligent degradation in these scenarios, especially in
ultra-low bit-width. This highlights the significant performance gap under low
bit-width that needs to be bridged in future developments. We expect that this
empirical study will prove valuable in advancing future models, pushing the
LLMs to lower bit-width with higher accuracy for being practical. Our project
is released on https://github.com/Macaronlin/LLaMA3-Quantization and quantized
LLaMA3 models are released in https://huggingface.co/LLMQ.Summary
AI-Generated Summary