Eine umfassende Bewertung quantisierter instruktionsangepasster großer Sprachmodelle: Eine experimentelle Analyse bis zu 405 Milliarden.
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
September 17, 2024
Autoren: Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon
cs.AI
Zusammenfassung
Frühere Forschungsarbeiten haben quantisierte LLMs anhand begrenzter Metriken wie Perplexität oder einigen grundlegenden Wissensaufgaben und alten Datensätzen bewertet. Darüber hinaus wurden jüngste groß angelegte Modelle wie Llama 3.1 mit bis zu 405 Milliarden Parametern nicht gründlich untersucht. Dieser Artikel bewertet die Leistung von anweisungsgesteuerten LLMs unter Verwendung verschiedener Quantisierungsmethoden (GPTQ, AWQ, SmoothQuant und FP8) für Modelle von 7 Milliarden bis 405 Milliarden Parametern. Anhand von 13 Benchmarks bewerten wir die Leistung in sechs Aufgabentypen: Alltagsverstand-Fragen und -Antworten, Wissens- und Sprachverständnis, Anweisungsfolge, Halluzinationserkennung, Mathematik und Dialog. Unsere wichtigsten Erkenntnisse zeigen, dass (1) die Quantisierung eines größeren LLM auf eine ähnliche Größe wie ein kleineres FP16 LLM in den meisten Benchmarks im Allgemeinen besser abschneidet, außer bei der Halluzinationserkennung und Anweisungsfolge; (2) die Leistung variiert erheblich je nach Quantisierungsmethode, Modellgröße und Bit-Breite, wobei Methoden, die nur Gewichte berücksichtigen, in größeren Modellen oft bessere Ergebnisse liefern; (3) die Schwierigkeit der Aufgabe wirkt sich nicht signifikant auf den Genauigkeitsverlust durch Quantisierung aus; und (4) die Evaluationsmethode MT-Bench hat eine begrenzte Unterscheidungskraft zwischen aktuellen leistungsstarken LLMs.
English
Prior research works have evaluated quantized LLMs using limited metrics such
as perplexity or a few basic knowledge tasks and old datasets. Additionally,
recent large-scale models such as Llama 3.1 with up to 405B have not been
thoroughly examined. This paper evaluates the performance of instruction-tuned
LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on
models ranging from 7B to 405B. Using 13 benchmarks, we assess performance
across six task types: commonsense Q\&A, knowledge and language understanding,
instruction following, hallucination detection, mathematics, and dialogue. Our
key findings reveal that (1) quantizing a larger LLM to a similar size as a
smaller FP16 LLM generally performs better across most benchmarks, except for
hallucination detection and instruction following; (2) performance varies
significantly with different quantization methods, model size, and bit-width,
with weight-only methods often yielding better results in larger models; (3)
task difficulty does not significantly impact accuracy degradation due to
quantization; and (4) the MT-Bench evaluation method has limited discriminatory
power among recent high-performing LLMs.Summary
AI-Generated Summary