ChatPaper.aiChatPaper

¿Qué tan buenos son los modelos LLaMA3 cuantificados de bajo bit? Un estudio empírico

How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

April 22, 2024
Autores: Wei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno
cs.AI

Resumen

La familia LLaMA de Meta se ha convertido en una de las series de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) de código abierto más potentes. Cabe destacar que los modelos LLaMA3 se han lanzado recientemente y logran un rendimiento impresionante en diversas tareas, gracias a un preentrenamiento a gran escala con más de 15 billones de tokens de datos. Dada la amplia aplicación de la cuantización de bajo bit para LLM en escenarios con recursos limitados, exploramos las capacidades de LLaMA3 cuando se cuantiza a anchos de bit reducidos. Esta exploración tiene el potencial de revelar nuevos conocimientos y desafíos para la cuantización de bajo bit de LLaMA3 y otros LLM futuros, especialmente en la resolución de problemas de degradación del rendimiento que sufren en la compresión de LLM. En concreto, evaluamos los 10 métodos existentes de cuantización post-entrenamiento y ajuste fino con LoRA de LLaMA3 en rangos de 1 a 8 bits y en diversos conjuntos de datos, para revelar de manera integral el rendimiento de cuantización de bajo bit de LLaMA3. Los resultados de nuestros experimentos indican que LLaMA3 aún sufre una degradación no despreciable en estos escenarios, especialmente en anchos de bit ultra bajos. Esto resalta la brecha significativa de rendimiento en anchos de bit reducidos que debe ser superada en desarrollos futuros. Esperamos que este estudio empírico resulte valioso para avanzar en futuros modelos, impulsando los LLM hacia anchos de bit más bajos con mayor precisión para su aplicación práctica. Nuestro proyecto está disponible en https://github.com/Macaronlin/LLaMA3-Quantization y los modelos cuantizados de LLaMA3 se han publicado en https://huggingface.co/LLMQ.
English
Meta's LLaMA family has become one of the most powerful open-source Large Language Model (LLM) series. Notably, LLaMA3 models have recently been released and achieve impressive performance across various with super-large scale pre-training on over 15T tokens of data. Given the wide application of low-bit quantization for LLMs in resource-limited scenarios, we explore LLaMA3's capabilities when quantized to low bit-width. This exploration holds the potential to unveil new insights and challenges for low-bit quantization of LLaMA3 and other forthcoming LLMs, especially in addressing performance degradation problems that suffer in LLM compression. Specifically, we evaluate the 10 existing post-training quantization and LoRA-finetuning methods of LLaMA3 on 1-8 bits and diverse datasets to comprehensively reveal LLaMA3's low-bit quantization performance. Our experiment results indicate that LLaMA3 still suffers non-negligent degradation in these scenarios, especially in ultra-low bit-width. This highlights the significant performance gap under low bit-width that needs to be bridged in future developments. We expect that this empirical study will prove valuable in advancing future models, pushing the LLMs to lower bit-width with higher accuracy for being practical. Our project is released on https://github.com/Macaronlin/LLaMA3-Quantization and quantized LLaMA3 models are released in https://huggingface.co/LLMQ.

Summary

AI-Generated Summary

PDF4612December 15, 2024