Комплексная оценка квантованных инструкций, настроенных на крупные языковые модели: экспериментальный анализ до 405 млрд.

Аннотация

Предыдущие исследования оценивали квантованные LLMs, используя ограниченные метрики, такие как перплексия или несколько базовых задач по знаниям на старых наборах данных. Кроме того, недавние крупномасштабные модели, такие как Llama 3.1 с объемом до 405 млрд, не были тщательно изучены. В данной статье оценивается производительность настроенных на инструкции LLMs с использованием различных методов квантования (GPTQ, AWQ, SmoothQuant и FP8) на моделях от 7 млрд до 405 млрд. С использованием 13 бенчмарков мы оцениваем производительность по шести типам задач: вопросы и ответы на здравый смысл, понимание знаний и языка, следование инструкциям, обнаружение галлюцинаций, математика и диалог. Наши ключевые результаты показывают, что (1) квантование более крупного LLM до схожего размера с меньшим FP16 LLM обычно дает лучшие результаты по большинству бенчмарков, за исключением обнаружения галлюцинаций и следования инструкциям; (2) производительность значительно варьируется в зависимости от различных методов квантования, размера модели и битовой глубины, причем методы только для весов часто дают лучшие результаты в более крупных моделях; (3) сложность задачи не оказывает значительного влияния на деградацию точности из-за квантования; и (4) метод оценки MT-Bench имеет ограниченную дискриминационную способность среди недавних высокопроизводительных LLMs.

English

Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q\&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.

Комплексная оценка квантованных инструкций, настроенных на крупные языковые модели: экспериментальный анализ до 405 млрд.

A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Аннотация

Support