Uma Avaliação Abrangente de Modelos de Linguagem Grandes Sintonizados com Instruções Quantizadas: Uma Análise Experimental de até 405B
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
September 17, 2024
Autores: Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon
cs.AI
Resumo
Trabalhos de pesquisa anteriores avaliaram LLMs quantizados usando métricas limitadas, como perplexidade ou algumas tarefas básicas de conhecimento e conjuntos de dados antigos. Além disso, modelos recentes em grande escala, como o Llama 3.1 com até 405B, não foram examinados minuciosamente. Este artigo avalia o desempenho de LLMs ajustados para instruções por meio de vários métodos de quantização (GPTQ, AWQ, SmoothQuant e FP8) em modelos que variam de 7B a 405B. Utilizando 13 benchmarks, avaliamos o desempenho em seis tipos de tarefas: Q\&A de senso comum, compreensão de conhecimento e linguagem, seguimento de instruções, detecção de alucinações, matemática e diálogo. Nossas descobertas principais revelam que (1) quantizar um LLM maior para um tamanho semelhante a um LLM FP16 menor geralmente apresenta melhor desempenho na maioria dos benchmarks, exceto para detecção de alucinações e seguimento de instruções; (2) o desempenho varia significativamente com diferentes métodos de quantização, tamanho do modelo e largura de bits, sendo que métodos baseados apenas em pesos frequentemente produzem melhores resultados em modelos maiores; (3) a dificuldade da tarefa não impacta significativamente na degradação da precisão devido à quantização; e (4) o método de avaliação MT-Bench tem poder discriminatório limitado entre LLMs recentes de alto desempenho.
English
Prior research works have evaluated quantized LLMs using limited metrics such
as perplexity or a few basic knowledge tasks and old datasets. Additionally,
recent large-scale models such as Llama 3.1 with up to 405B have not been
thoroughly examined. This paper evaluates the performance of instruction-tuned
LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on
models ranging from 7B to 405B. Using 13 benchmarks, we assess performance
across six task types: commonsense Q\&A, knowledge and language understanding,
instruction following, hallucination detection, mathematics, and dialogue. Our
key findings reveal that (1) quantizing a larger LLM to a similar size as a
smaller FP16 LLM generally performs better across most benchmarks, except for
hallucination detection and instruction following; (2) performance varies
significantly with different quantization methods, model size, and bit-width,
with weight-only methods often yielding better results in larger models; (3)
task difficulty does not significantly impact accuracy degradation due to
quantization; and (4) the MT-Bench evaluation method has limited discriminatory
power among recent high-performing LLMs.Summary
AI-Generated Summary