"Gib mir BF16 oder gib mir den Tod"? Genauigkeits-Leistungskompromisse in der LLM-Quantisierung"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM
Quantization
Trotz der Beliebtheit der Quantisierung großer Sprachmodell (LLM) zur Beschleunigung der Inferenz bestehen erhebliche Unsicherheiten hinsichtlich der Genauigkeits-Leistungs-Abwägungen, die mit verschiedenen Quantisierungsformaten verbunden sind. Wir präsentieren eine umfassende empirische Studie zur quantisierten Genauigkeit, die beliebte Quantisierungsformate (FP8, INT8, INT4) anhand akademischer Benchmarks und realer Aufgaben im gesamten Llama-3.1-Modellfamilie bewertet. Darüber hinaus untersucht unsere Studie den Unterschied im von quantisierten Modellen im Vergleich zu ihren unkomprimierten Gegenstücken generierten Text. Neben Benchmarks präsentieren wir auch ein paar Quantisierungsverbesserungen, die es uns ermöglichten, Spitzenwerte bei der Genauigkeitswiederherstellung zu erzielen. Unsere Untersuchung, die über 500.000 einzelne Bewertungen umfasst, ergibt mehrere wichtige Erkenntnisse: (1) FP8-Gewichts- und Aktivitätsquantisierung (W8A8-FP) ist verlustfrei über alle Modellskalen hinweg, (2) INT8-Gewichts- und Aktivitätsquantisierung (W8A8-INT) verursacht bei ordnungsgemäßer Abstimmung überraschend geringe 1-3%ige Genauigkeitsverschlechterung und (3) INT4-Gewichtsquantisierung allein (W4A16-INT) ist konkurrenzfähig mit 8-Bit-Ganzzahl-Gewichts- und Aktivitätsquantisierung. Um die Frage nach dem "besten" Format für eine bestimmte Bereitstellungsumgebung zu beantworten, führen wir eine Inferenzleistungsanalyse unter Verwendung des beliebten Open-Source-vLLM-Frameworks auf verschiedenen GPU-Architekturen durch. Wir stellen fest, dass W4A16 die beste Kosten-Effizienz für synchrone Bereitstellungen bietet und für asynchrone Bereitstellung auf mittleren GPUs. Gleichzeitig zeichnen sich W8A8-Formate bei asynchronen "kontinuierlichen Stapelverarbeitungs"-Bereitstellungen von mittleren und großen Modellen auf High-End-GPUs aus. Unsere Ergebnisse liefern eine Reihe praktischer Leitlinien für die Bereitstellung quantisierter LLMs über verschiedene Skalen und Leistungsanforderungen hinweg.