Eine umfassende Bewertung quantisierter instruktionsangepasster großer Sprachmodelle: Eine experimentelle Analyse bis zu 405 Milliarden.

papers.abstract

Frühere Forschungsarbeiten haben quantisierte LLMs anhand begrenzter Metriken wie Perplexität oder einigen grundlegenden Wissensaufgaben und alten Datensätzen bewertet. Darüber hinaus wurden jüngste groß angelegte Modelle wie Llama 3.1 mit bis zu 405 Milliarden Parametern nicht gründlich untersucht. Dieser Artikel bewertet die Leistung von anweisungsgesteuerten LLMs unter Verwendung verschiedener Quantisierungsmethoden (GPTQ, AWQ, SmoothQuant und FP8) für Modelle von 7 Milliarden bis 405 Milliarden Parametern. Anhand von 13 Benchmarks bewerten wir die Leistung in sechs Aufgabentypen: Alltagsverstand-Fragen und -Antworten, Wissens- und Sprachverständnis, Anweisungsfolge, Halluzinationserkennung, Mathematik und Dialog. Unsere wichtigsten Erkenntnisse zeigen, dass (1) die Quantisierung eines größeren LLM auf eine ähnliche Größe wie ein kleineres FP16 LLM in den meisten Benchmarks im Allgemeinen besser abschneidet, außer bei der Halluzinationserkennung und Anweisungsfolge; (2) die Leistung variiert erheblich je nach Quantisierungsmethode, Modellgröße und Bit-Breite, wobei Methoden, die nur Gewichte berücksichtigen, in größeren Modellen oft bessere Ergebnisse liefern; (3) die Schwierigkeit der Aufgabe wirkt sich nicht signifikant auf den Genauigkeitsverlust durch Quantisierung aus; und (4) die Evaluationsmethode MT-Bench hat eine begrenzte Unterscheidungskraft zwischen aktuellen leistungsstarken LLMs.

English

Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q\&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.

Eine umfassende Bewertung quantisierter instruktionsangepasster großer Sprachmodelle: Eine experimentelle Analyse bis zu 405 Milliarden.

A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

papers.abstract

Support