ChatPaper.aiChatPaper

量子化された命令に調整された大規模言語モデルの包括的評価:405Bまでの実験分析

A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

September 17, 2024
著者: Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon
cs.AI

要旨

これまでの研究では、パープレキシティや一部の基本的な知識タスク、古いデータセットなど、限られたメトリクスを使用して、量子化されたLLM(Large Language Model)が評価されてきました。さらに、最近の大規模モデルであるLlama 3.1(最大405B)などは、徹底的に調査されていませんでした。本論文では、指示に調整されたLLMの性能を、GPTQ、AWQ、SmoothQuant、FP8などのさまざまな量子化手法を用いて、7Bから405Bまでのモデルで評価します。13のベンチマークを使用して、常識的なQ&A、知識と言語理解、指示の遵守、幻覚検出、数学、対話といった6つのタスクタイプにわたる性能を評価します。主な結果は以下の通りです:(1)より大きなLLMをより小さなFP16 LLMと同じサイズに量子化すると、幻覚検出と指示の遵守を除いて、ほとんどのベンチマークで一般的に性能が向上します;(2)性能は、異なる量子化手法、モデルサイズ、ビット幅によって大きく異なり、大きなモデルでは重みのみの手法がしばしばより良い結果をもたらす;(3)タスクの難易度は、量子化による精度の低下にほとんど影響を与えません;そして(4)最近の高性能LLMの間でのMT-Bench評価方法は、限られた識別力しか持っていません。
English
Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q\&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.

Summary

AI-Generated Summary

PDF173November 16, 2024