Una Valutazione Approfondita dei Modelli Linguistici di Grandi Dimensioni Ottimizzati con Istruzioni Quantizzate: Un'Analisi Sperimentale Fino a 405 miliardi
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
September 17, 2024
Autori: Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon
cs.AI
Abstract
Lavori di ricerca precedenti hanno valutato LLM quantizzati utilizzando metriche limitate come perplessità o alcuni compiti di base di conoscenza e vecchi set di dati. Inoltre, modelli di grandi dimensioni recenti come Llama 3.1 con fino a 405 miliardi non sono stati esaminati approfonditamente. Questo articolo valuta le prestazioni di LLM ottimizzati per istruzioni attraverso vari metodi di quantizzazione (GPTQ, AWQ, SmoothQuant e FP8) su modelli che vanno da 7 miliardi a 405 miliardi. Utilizzando 13 benchmark, valutiamo le prestazioni su sei tipi di compiti: Q\&A di buon senso, comprensione della conoscenza e del linguaggio, seguire le istruzioni, rilevare l'allucinazione, matematica e dialogo. Le nostre principali scoperte rivelano che (1) quantizzare un LLM più grande ad una dimensione simile a un LLM FP16 più piccolo generalmente funziona meglio su maggior parte dei benchmark, tranne che per il rilevamento dell'allucinazione e il seguire le istruzioni; (2) le prestazioni variano significativamente con diversi metodi di quantizzazione, dimensione del modello e larghezza di bit, con i metodi basati solo sui pesi spesso che producono risultati migliori nei modelli più grandi; (3) la difficoltà del compito non influisce significativamente sulla degradazione dell'accuratezza dovuta alla quantizzazione; e (4) il metodo di valutazione MT-Bench ha un potere discriminatorio limitato tra i LLM recenti ad alte prestazioni.
English
Prior research works have evaluated quantized LLMs using limited metrics such
as perplexity or a few basic knowledge tasks and old datasets. Additionally,
recent large-scale models such as Llama 3.1 with up to 405B have not been
thoroughly examined. This paper evaluates the performance of instruction-tuned
LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on
models ranging from 7B to 405B. Using 13 benchmarks, we assess performance
across six task types: commonsense Q\&A, knowledge and language understanding,
instruction following, hallucination detection, mathematics, and dialogue. Our
key findings reveal that (1) quantizing a larger LLM to a similar size as a
smaller FP16 LLM generally performs better across most benchmarks, except for
hallucination detection and instruction following; (2) performance varies
significantly with different quantization methods, model size, and bit-width,
with weight-only methods often yielding better results in larger models; (3)
task difficulty does not significantly impact accuracy degradation due to
quantization; and (4) the MT-Bench evaluation method has limited discriminatory
power among recent high-performing LLMs.Summary
AI-Generated Summary