Une évaluation complète des grands modèles de langage ajustés par instruction quantifiée : une analyse expérimentale jusqu'à 405 milliards.

papers.abstract

Les travaux de recherche antérieurs ont évalué des LLM quantifiés en utilisant des métriques limitées telles que la perplexité ou quelques tâches de connaissances de base et de vieux ensembles de données. De plus, les récents modèles à grande échelle tels que Llama 3.1 avec jusqu'à 405 milliards n'ont pas été examinés en profondeur. Cet article évalue les performances des LLM ajustés aux instructions à travers diverses méthodes de quantification (GPTQ, AWQ, SmoothQuant et FP8) sur des modèles allant de 7 milliards à 405 milliards. En utilisant 13 benchmarks, nous évaluons les performances à travers six types de tâches : Q\&A de bon sens, compréhension de la connaissance et du langage, suivi des instructions, détection d'hallucinations, mathématiques et dialogue. Nos principales conclusions révèlent que (1) quantifier un LLM plus grand à une taille similaire à celle d'un LLM FP16 plus petit donne généralement de meilleurs résultats sur la plupart des benchmarks, sauf pour la détection d'hallucinations et le suivi des instructions ; (2) les performances varient significativement avec différentes méthodes de quantification, la taille du modèle et la largeur des bits, les méthodes basées uniquement sur les poids donnant souvent de meilleurs résultats dans les modèles plus grands ; (3) la difficulté de la tâche n'a pas d'impact significatif sur la dégradation de la précision due à la quantification ; et (4) la méthode d'évaluation MT-Bench a un pouvoir discriminatoire limité parmi les LLMs récents performants.

English

Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q\&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.

Une évaluation complète des grands modèles de langage ajustés par instruction quantifiée : une analyse expérimentale jusqu'à 405 milliards.

A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

papers.abstract

Support