Quão bons são os modelos LLaMA3 quantizados de baixo bit? Um estudo empírico
How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study
April 22, 2024
Autores: Wei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno
cs.AI
Resumo
A família LLaMA da Meta tornou-se uma das séries de modelos de linguagem de grande escala (LLM) de código aberto mais poderosas. Notavelmente, os modelos LLaMA3 foram recentemente lançados e alcançam desempenho impressionante em várias tarefas, graças ao pré-treinamento em escala super-grande com mais de 15 trilhões de tokens de dados. Dada a ampla aplicação da quantização de baixo bit para LLMs em cenários com recursos limitados, exploramos as capacidades do LLaMA3 quando quantizado para larguras de bit reduzidas. Essa exploração tem o potencial de revelar novos insights e desafios para a quantização de baixo bit do LLaMA3 e de outros LLMs futuros, especialmente no enfrentamento de problemas de degradação de desempenho que ocorrem na compressão de LLMs. Especificamente, avaliamos os 10 métodos existentes de quantização pós-treinamento e ajuste fino com LoRA do LLaMA3 em 1-8 bits e diversos conjuntos de dados para revelar de forma abrangente o desempenho de quantização de baixo bit do LLaMA3. Nossos resultados experimentais indicam que o LLaMA3 ainda sofre degradação não negligenciável nesses cenários, especialmente em larguras de bit ultrabaixas. Isso destaca a significativa lacuna de desempenho em baixas larguras de bit que precisa ser superada em desenvolvimentos futuros. Esperamos que este estudo empírico se mostre valioso no avanço de modelos futuros, levando os LLMs a operar com larguras de bit mais baixas e maior precisão para se tornarem práticos. Nosso projeto está disponível em https://github.com/Macaronlin/LLaMA3-Quantization, e os modelos quantizados do LLaMA3 estão disponíveis em https://huggingface.co/LLMQ.
English
Meta's LLaMA family has become one of the most powerful open-source Large
Language Model (LLM) series. Notably, LLaMA3 models have recently been released
and achieve impressive performance across various with super-large scale
pre-training on over 15T tokens of data. Given the wide application of low-bit
quantization for LLMs in resource-limited scenarios, we explore LLaMA3's
capabilities when quantized to low bit-width. This exploration holds the
potential to unveil new insights and challenges for low-bit quantization of
LLaMA3 and other forthcoming LLMs, especially in addressing performance
degradation problems that suffer in LLM compression. Specifically, we evaluate
the 10 existing post-training quantization and LoRA-finetuning methods of
LLaMA3 on 1-8 bits and diverse datasets to comprehensively reveal LLaMA3's
low-bit quantization performance. Our experiment results indicate that LLaMA3
still suffers non-negligent degradation in these scenarios, especially in
ultra-low bit-width. This highlights the significant performance gap under low
bit-width that needs to be bridged in future developments. We expect that this
empirical study will prove valuable in advancing future models, pushing the
LLMs to lower bit-width with higher accuracy for being practical. Our project
is released on https://github.com/Macaronlin/LLaMA3-Quantization and quantized
LLaMA3 models are released in https://huggingface.co/LLMQ.