"Geef mij BF16 of geef mij de dood"? Nauwkeurigheids-prestatieafwegingen in LLM-kwantisering"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM
Quantization
Ondanks de populariteit van de kwantisatie van grote taalmodellen (LLM) voor versnelling van inferentie, blijft er aanzienlijke onzekerheid bestaan over de nauwkeurigheids-prestatieafwegingen die gepaard gaan met verschillende kwantisatieformaten. We presenteren een uitgebreide empirische studie van gekwantiseerde nauwkeurigheid, waarbij populaire kwantisatieformaten (FP8, INT8, INT4) worden geëvalueerd op academische benchmarks en real-world taken, op de volledige Llama-3.1 model familie. Daarnaast onderzoekt onze studie het verschil in gegenereerde tekst door gekwantiseerde modellen versus hun ongecomprimeerde tegenhangers. Naast benchmarks presenteren we ook een paar kwantisatieverbeteringen die ons in staat stelden om resultaten van state-of-the-art nauwkeurigheidsherstel te behalen. Ons onderzoek, waarbij meer dan 500.000 individuele evaluaties zijn betrokken, levert verschillende belangrijke bevindingen op: (1) FP8 gewichts- en activiteitskwantisatie (W8A8-FP) is verliesvrij over alle model schalen, (2) INT8 gewichts- en activiteitskwantisatie (W8A8-INT), wanneer correct afgestemd, leidt tot verrassend lage 1-3% nauwkeurigheidsdegradatie, en (3) INT4 alleen-gewicht kwantisatie (W4A16-INT) is concurrerend met 8-bit gehele getal gewichts- en activiteitskwantisatie. Om de vraag naar het "beste" formaat voor een bepaalde implementatieomgeving aan te pakken, voeren we een analyse van inferentieprestaties uit met behulp van het populaire open-source vLLM-framework op verschillende GPU-architecturen. We vinden dat W4A16 de beste kostenefficiëntie biedt voor synchrone implementaties, en voor asynchrone implementatie op mid-tier GPU's. Tegelijkertijd excelleren W8A8-formaten in asynchrone "continue batch" implementatie van middelgrote en grote modellen op high-end GPU's. Onze resultaten bieden een reeks praktische richtlijnen voor het implementeren van gekwantiseerde LLM's over verschillende schalen en prestatievereisten.