Una Evaluación Exhaustiva de Modelos de Lenguaje Grandes Sintonizados con Instrucciones Cuantizadas: Un Análisis Experimental de hasta 405B
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
September 17, 2024
Autores: Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon
cs.AI
Resumen
Investigaciones previas han evaluado LLMs cuantizados utilizando métricas limitadas como perplejidad o algunas tareas básicas de conocimiento y conjuntos de datos antiguos. Además, modelos recientes a gran escala como Llama 3.1 con hasta 405B no han sido examinados a fondo. Este documento evalúa el rendimiento de LLMs ajustados a instrucciones a través de varios métodos de cuantización (GPTQ, AWQ, SmoothQuant y FP8) en modelos que van desde 7B hasta 405B. Utilizando 13 pruebas de referencia, evaluamos el rendimiento en seis tipos de tareas: preguntas y respuestas de sentido común, comprensión de conocimiento y lenguaje, seguimiento de instrucciones, detección de alucinaciones, matemáticas y diálogo. Nuestros hallazgos clave revelan que (1) cuantizar un LLM más grande a un tamaño similar a un LLM FP16 más pequeño generalmente funciona mejor en la mayoría de las pruebas, excepto en la detección de alucinaciones y el seguimiento de instrucciones; (2) el rendimiento varía significativamente con diferentes métodos de cuantización, tamaño del modelo y ancho de bits, con métodos basados solo en pesos a menudo produciendo mejores resultados en modelos más grandes; (3) la dificultad de la tarea no impacta significativamente en la degradación de la precisión debido a la cuantización; y (4) el método de evaluación MT-Bench tiene un poder discriminatorio limitado entre LLMs recientes de alto rendimiento.
English
Prior research works have evaluated quantized LLMs using limited metrics such
as perplexity or a few basic knowledge tasks and old datasets. Additionally,
recent large-scale models such as Llama 3.1 with up to 405B have not been
thoroughly examined. This paper evaluates the performance of instruction-tuned
LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on
models ranging from 7B to 405B. Using 13 benchmarks, we assess performance
across six task types: commonsense Q\&A, knowledge and language understanding,
instruction following, hallucination detection, mathematics, and dialogue. Our
key findings reveal that (1) quantizing a larger LLM to a similar size as a
smaller FP16 LLM generally performs better across most benchmarks, except for
hallucination detection and instruction following; (2) performance varies
significantly with different quantization methods, model size, and bit-width,
with weight-only methods often yielding better results in larger models; (3)
task difficulty does not significantly impact accuracy degradation due to
quantization; and (4) the MT-Bench evaluation method has limited discriminatory
power among recent high-performing LLMs.Summary
AI-Generated Summary