Une évaluation complète des grands modèles de langage ajustés par instruction quantifiée : une analyse expérimentale jusqu'à 405 milliards.
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
September 17, 2024
Auteurs: Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon
cs.AI
Résumé
Les travaux de recherche antérieurs ont évalué des LLM quantifiés en utilisant des métriques limitées telles que la perplexité ou quelques tâches de connaissances de base et de vieux ensembles de données. De plus, les récents modèles à grande échelle tels que Llama 3.1 avec jusqu'à 405 milliards n'ont pas été examinés en profondeur. Cet article évalue les performances des LLM ajustés aux instructions à travers diverses méthodes de quantification (GPTQ, AWQ, SmoothQuant et FP8) sur des modèles allant de 7 milliards à 405 milliards. En utilisant 13 benchmarks, nous évaluons les performances à travers six types de tâches : Q\&A de bon sens, compréhension de la connaissance et du langage, suivi des instructions, détection d'hallucinations, mathématiques et dialogue. Nos principales conclusions révèlent que (1) quantifier un LLM plus grand à une taille similaire à celle d'un LLM FP16 plus petit donne généralement de meilleurs résultats sur la plupart des benchmarks, sauf pour la détection d'hallucinations et le suivi des instructions ; (2) les performances varient significativement avec différentes méthodes de quantification, la taille du modèle et la largeur des bits, les méthodes basées uniquement sur les poids donnant souvent de meilleurs résultats dans les modèles plus grands ; (3) la difficulté de la tâche n'a pas d'impact significatif sur la dégradation de la précision due à la quantification ; et (4) la méthode d'évaluation MT-Bench a un pouvoir discriminatoire limité parmi les LLMs récents performants.
English
Prior research works have evaluated quantized LLMs using limited metrics such
as perplexity or a few basic knowledge tasks and old datasets. Additionally,
recent large-scale models such as Llama 3.1 with up to 405B have not been
thoroughly examined. This paper evaluates the performance of instruction-tuned
LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on
models ranging from 7B to 405B. Using 13 benchmarks, we assess performance
across six task types: commonsense Q\&A, knowledge and language understanding,
instruction following, hallucination detection, mathematics, and dialogue. Our
key findings reveal that (1) quantizing a larger LLM to a similar size as a
smaller FP16 LLM generally performs better across most benchmarks, except for
hallucination detection and instruction following; (2) performance varies
significantly with different quantization methods, model size, and bit-width,
with weight-only methods often yielding better results in larger models; (3)
task difficulty does not significantly impact accuracy degradation due to
quantization; and (4) the MT-Bench evaluation method has limited discriminatory
power among recent high-performing LLMs.Summary
AI-Generated Summary