Насколько хороши низкобитовые квантованные модели LLaMA3? Эмпирическое исследование
How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study
April 22, 2024
Авторы: Wei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno
cs.AI
Аннотация
Семейство LLaMA компании Meta стало одним из самых мощных серий открытых больших языковых моделей (LLM). Особенно стоит отметить, что недавно были выпущены модели LLaMA3, которые достигли впечатляющей производительности на различных задачах благодаря масштабному предварительному обучению на более чем 15 трлн токенов данных. Учитывая широкое применение квантизации низкого разрешения для LLM в ситуациях с ограниченными ресурсами, мы исследуем возможности LLaMA3 при квантизации до низкой разрядности. Это исследование может раскрывать новые идеи и вызовы для квантизации низкого разрешения LLaMA3 и других предстоящих LLM, особенно в решении проблем деградации производительности, с которыми сталкиваются при сжатии LLM. В частности, мы оцениваем 10 существующих методов квантизации после обучения и донастройки LoRA LLaMA3 на 1-8 битах и различных наборах данных, чтобы всесторонне выявить производительность квантизации низкой разрядности LLaMA3. Результаты наших экспериментов показывают, что LLaMA3 все еще страдает от незначительной деградации в этих сценариях, особенно при ультранизкой разрядности. Это подчеркивает значительный разрыв в производительности при низкой разрядности, который необходимо преодолеть в будущих разработках. Мы ожидаем, что это эмпирическое исследование окажется ценным для продвижения будущих моделей, смещая LLM к более низкой разрядности с повышенной точностью для практического использования. Наш проект доступен по ссылке https://github.com/Macaronlin/LLaMA3-Quantization, а квантизированные модели LLaMA3 доступны по ссылке https://huggingface.co/LLMQ.
English
Meta's LLaMA family has become one of the most powerful open-source Large
Language Model (LLM) series. Notably, LLaMA3 models have recently been released
and achieve impressive performance across various with super-large scale
pre-training on over 15T tokens of data. Given the wide application of low-bit
quantization for LLMs in resource-limited scenarios, we explore LLaMA3's
capabilities when quantized to low bit-width. This exploration holds the
potential to unveil new insights and challenges for low-bit quantization of
LLaMA3 and other forthcoming LLMs, especially in addressing performance
degradation problems that suffer in LLM compression. Specifically, we evaluate
the 10 existing post-training quantization and LoRA-finetuning methods of
LLaMA3 on 1-8 bits and diverse datasets to comprehensively reveal LLaMA3's
low-bit quantization performance. Our experiment results indicate that LLaMA3
still suffers non-negligent degradation in these scenarios, especially in
ultra-low bit-width. This highlights the significant performance gap under low
bit-width that needs to be bridged in future developments. We expect that this
empirical study will prove valuable in advancing future models, pushing the
LLMs to lower bit-width with higher accuracy for being practical. Our project
is released on https://github.com/Macaronlin/LLaMA3-Quantization and quantized
LLaMA3 models are released in https://huggingface.co/LLMQ.Summary
AI-Generated Summary