ChatPaper.aiChatPaper

Quantification Matryoshka

Matryoshka Quantization

February 10, 2025
Auteurs: Pranav Nair, Puranjay Datta, Jeff Dean, Prateek Jain, Aditya Kusupati
cs.AI

Résumé

La quantification des poids du modèle est essentielle pour réduire les coûts de communication et d'inférence des grands modèles. Cependant, quantifier les modèles - surtout à des précisions faibles comme int4 ou int2 - nécessite un compromis en termes de qualité du modèle ; int2, en particulier, est connu pour dégrader considérablement la qualité du modèle. Par conséquent, les praticiens se voient souvent contraints de maintenir plusieurs modèles avec différents niveaux de quantification ou de servir un seul modèle qui satisfait au mieux le compromis qualité-latence. D'autre part, les types de données entiers, tels que int8, possèdent intrinsèquement une structure imbriquée (Matryoshka) où des entiers de plus faible largeur de bits, comme int4 ou int2, sont imbriqués dans les bits les plus significatifs. Cet article propose la Quantification Matryoshka (MatQuant), une nouvelle technique de quantification multi-échelle qui répond au défi de nécessiter plusieurs modèles quantifiés. Elle permet de former et de maintenir un seul modèle, qui peut ensuite être utilisé à différents niveaux de précision. De plus, grâce à la régularisation de co-formation et de co-distillation fournie par MatQuant, les modèles de précision int2 extraits par MatQuant peuvent être jusqu'à 10% plus précis que la quantification int2 standard (en utilisant des techniques comme QAT ou OmniQuant). Cela représente un progrès significatif en matière de quantification de modèles, comme en témoigne le fait qu'avec la même recette, un modèle Gemma-2 9B FFN-quantifié en int2 est plus précis qu'un modèle Gemma-2 2B FFN-quantifié en int8.
English
Quantizing model weights is critical for reducing the communication and inference costs of large models. However, quantizing models -- especially to low precisions like int4 or int2 -- requires a trade-off in model quality; int2, in particular, is known to severely degrade model quality. Consequently, practitioners are often forced to maintain multiple models with different quantization levels or serve a single model that best satisfies the quality-latency trade-off. On the other hand, integer data types, such as int8, inherently possess a nested (Matryoshka) structure where smaller bit-width integers, like int4 or int2, are nested within the most significant bits. This paper proposes Matryoshka Quantization (MatQuant), a novel multi-scale quantization technique that addresses the challenge of needing multiple quantized models. It allows training and maintaining just one model, which can then be served at different precision levels. Furthermore, due to the co-training and co-distillation regularization provided by MatQuant, the int2 precision models extracted by MatQuant can be up to 10% more accurate than standard int2 quantization (using techniques like QAT or OmniQuant). This represents significant progress in model quantization, demonstrated by the fact that, with the same recipe, an int2 FFN-quantized Gemma-2 9B model is more accurate than an int8 FFN-quantized Gemma-2 2B model.

Summary

AI-Generated Summary

PDF304February 11, 2025