ChatPaper.aiChatPaper

Matryoshka Kwantisering

Matryoshka Quantization

February 10, 2025
Auteurs: Pranav Nair, Puranjay Datta, Jeff Dean, Prateek Jain, Aditya Kusupati
cs.AI

Samenvatting

Het kwantiseren van modelgewichten is cruciaal voor het verminderen van de communicatie- en inferentiekosten van grote modellen. Echter, het kwantiseren van modellen - vooral naar lage precisies zoals int4 of int2 - vereist een compromis in modelkwaliteit; int2 staat er met name om bekend de modelkwaliteit aanzienlijk te degraderen. Als gevolg hiervan worden beoefenaars vaak gedwongen om meerdere modellen met verschillende kwantisatieniveaus te behouden of om een enkel model te gebruiken dat het beste voldoet aan de kwaliteit-latency afweging. Aan de andere kant hebben gehele getallen, zoals int8, van nature een geneste (Matroesjka) structuur waarbij kleinere bitbreedte gehele getallen, zoals int4 of int2, genest zijn binnen de meest significante bits. Dit artikel stelt Matroesjka Kwantisatie (MatQuant) voor, een nieuwe multi-schaal kwantisatietechniek die het probleem van de noodzaak van meerdere gekwantiseerde modellen aanpakt. Het maakt het mogelijk om slechts één model te trainen en te behouden, dat vervolgens op verschillende precisieniveaus kan worden gebruikt. Bovendien kunnen de int2 precisie modellen die door MatQuant worden geëxtraheerd, dankzij de co-training en co-distillatie regulering van MatQuant, tot 10% nauwkeuriger zijn dan standaard int2 kwantisatie (gebruikmakend van technieken zoals QAT of OmniQuant). Dit vertegenwoordigt aanzienlijke vooruitgang in modelkwantisatie, aangetoond door het feit dat, met hetzelfde recept, een int2 FFN-gekwantiseerd Gemma-2 9B model nauwkeuriger is dan een int8 FFN-gekwantiseerd Gemma-2 2B model.
English
Quantizing model weights is critical for reducing the communication and inference costs of large models. However, quantizing models -- especially to low precisions like int4 or int2 -- requires a trade-off in model quality; int2, in particular, is known to severely degrade model quality. Consequently, practitioners are often forced to maintain multiple models with different quantization levels or serve a single model that best satisfies the quality-latency trade-off. On the other hand, integer data types, such as int8, inherently possess a nested (Matryoshka) structure where smaller bit-width integers, like int4 or int2, are nested within the most significant bits. This paper proposes Matryoshka Quantization (MatQuant), a novel multi-scale quantization technique that addresses the challenge of needing multiple quantized models. It allows training and maintaining just one model, which can then be served at different precision levels. Furthermore, due to the co-training and co-distillation regularization provided by MatQuant, the int2 precision models extracted by MatQuant can be up to 10% more accurate than standard int2 quantization (using techniques like QAT or OmniQuant). This represents significant progress in model quantization, demonstrated by the fact that, with the same recipe, an int2 FFN-quantized Gemma-2 9B model is more accurate than an int8 FFN-quantized Gemma-2 2B model.

Summary

AI-Generated Summary

PDF304February 11, 2025