Комплексная оценка квантованных инструкций, настроенных на крупные языковые модели: экспериментальный анализ до 405 млрд.
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
September 17, 2024
Авторы: Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon
cs.AI
Аннотация
Предыдущие исследования оценивали квантованные LLMs, используя ограниченные метрики, такие как перплексия или несколько базовых задач по знаниям на старых наборах данных. Кроме того, недавние крупномасштабные модели, такие как Llama 3.1 с объемом до 405 млрд, не были тщательно изучены. В данной статье оценивается производительность настроенных на инструкции LLMs с использованием различных методов квантования (GPTQ, AWQ, SmoothQuant и FP8) на моделях от 7 млрд до 405 млрд. С использованием 13 бенчмарков мы оцениваем производительность по шести типам задач: вопросы и ответы на здравый смысл, понимание знаний и языка, следование инструкциям, обнаружение галлюцинаций, математика и диалог. Наши ключевые результаты показывают, что (1) квантование более крупного LLM до схожего размера с меньшим FP16 LLM обычно дает лучшие результаты по большинству бенчмарков, за исключением обнаружения галлюцинаций и следования инструкциям; (2) производительность значительно варьируется в зависимости от различных методов квантования, размера модели и битовой глубины, причем методы только для весов часто дают лучшие результаты в более крупных моделях; (3) сложность задачи не оказывает значительного влияния на деградацию точности из-за квантования; и (4) метод оценки MT-Bench имеет ограниченную дискриминационную способность среди недавних высокопроизводительных LLMs.
English
Prior research works have evaluated quantized LLMs using limited metrics such
as perplexity or a few basic knowledge tasks and old datasets. Additionally,
recent large-scale models such as Llama 3.1 with up to 405B have not been
thoroughly examined. This paper evaluates the performance of instruction-tuned
LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on
models ranging from 7B to 405B. Using 13 benchmarks, we assess performance
across six task types: commonsense Q\&A, knowledge and language understanding,
instruction following, hallucination detection, mathematics, and dialogue. Our
key findings reveal that (1) quantizing a larger LLM to a similar size as a
smaller FP16 LLM generally performs better across most benchmarks, except for
hallucination detection and instruction following; (2) performance varies
significantly with different quantization methods, model size, and bit-width,
with weight-only methods often yielding better results in larger models; (3)
task difficulty does not significantly impact accuracy degradation due to
quantization; and (4) the MT-Bench evaluation method has limited discriminatory
power among recent high-performing LLMs.Summary
AI-Generated Summary