ChatPaper.aiChatPaper

Matrjoschka-Quantisierung

Matryoshka Quantization

February 10, 2025
Autoren: Pranav Nair, Puranjay Datta, Jeff Dean, Prateek Jain, Aditya Kusupati
cs.AI

Zusammenfassung

Die Quantisierung von Modellgewichten ist entscheidend, um die Kommunikations- und Inferenzkosten großer Modelle zu reduzieren. Die Quantisierung von Modellen - insbesondere auf niedrige Präzisionen wie int4 oder int2 - erfordert jedoch einen Kompromiss in der Modellqualität; insbesondere ist bekannt, dass int2 die Modellqualität erheblich beeinträchtigt. Folglich sind Praktiker oft gezwungen, mehrere Modelle mit unterschiedlichen Quantisierungsstufen zu pflegen oder ein einziges Modell bereitzustellen, das den Qualitäts-Latenz-Kompromiss am besten erfüllt. Andererseits besitzen ganze Datentypen wie int8 von Natur aus eine verschachtelte (Matrjoschka-)Struktur, bei der kleinere Bitbreiten-Integer wie int4 oder int2 in den signifikantesten Bits verschachtelt sind. Dieses Papier schlägt Matrjoschka-Quantisierung (MatQuant) vor, eine neuartige Multiskalen-Quantisierungstechnik, die die Herausforderung der Notwendigkeit mehrerer quantisierter Modelle angeht. Sie ermöglicht das Training und die Pflege eines einzigen Modells, das dann auf verschiedenen Präzisionsstufen bereitgestellt werden kann. Darüber hinaus können aufgrund der Co-Trainings- und Co-Distillation-Regulierung, die MatQuant bietet, die int2-Präzisionsmodelle, die von MatQuant extrahiert werden, um bis zu 10 % genauer sein als die Standard int2-Quantisierung (unter Verwendung von Techniken wie QAT oder OmniQuant). Dies stellt einen signifikanten Fortschritt in der Modellquantisierung dar, wie sich daran zeigt, dass mit demselben Rezept ein int2 FFN-quantisiertes Gemma-2 9B-Modell genauer ist als ein int8 FFN-quantisiertes Gemma-2 2B-Modell.
English
Quantizing model weights is critical for reducing the communication and inference costs of large models. However, quantizing models -- especially to low precisions like int4 or int2 -- requires a trade-off in model quality; int2, in particular, is known to severely degrade model quality. Consequently, practitioners are often forced to maintain multiple models with different quantization levels or serve a single model that best satisfies the quality-latency trade-off. On the other hand, integer data types, such as int8, inherently possess a nested (Matryoshka) structure where smaller bit-width integers, like int4 or int2, are nested within the most significant bits. This paper proposes Matryoshka Quantization (MatQuant), a novel multi-scale quantization technique that addresses the challenge of needing multiple quantized models. It allows training and maintaining just one model, which can then be served at different precision levels. Furthermore, due to the co-training and co-distillation regularization provided by MatQuant, the int2 precision models extracted by MatQuant can be up to 10% more accurate than standard int2 quantization (using techniques like QAT or OmniQuant). This represents significant progress in model quantization, demonstrated by the fact that, with the same recipe, an int2 FFN-quantized Gemma-2 9B model is more accurate than an int8 FFN-quantized Gemma-2 2B model.

Summary

AI-Generated Summary

PDF304February 11, 2025