ChatPaper.aiChatPaper

Quantização Matryoshka

Matryoshka Quantization

February 10, 2025
Autores: Pranav Nair, Puranjay Datta, Jeff Dean, Prateek Jain, Aditya Kusupati
cs.AI

Resumo

A quantização dos pesos do modelo é fundamental para reduzir os custos de comunicação e inferência de modelos grandes. No entanto, quantizar modelos - especialmente para baixas precisões como int4 ou int2 - requer um compromisso na qualidade do modelo; o int2, em particular, é conhecido por degradar severamente a qualidade do modelo. Consequentemente, os profissionais muitas vezes são obrigados a manter múltiplos modelos com diferentes níveis de quantização ou a disponibilizar um único modelo que melhor satisfaça o compromisso entre qualidade e latência. Por outro lado, tipos de dados inteiros, como int8, possuem inerentemente uma estrutura aninhada (Matryoshka) onde inteiros de menor largura de bits, como int4 ou int2, estão aninhados nos bits mais significativos. Este artigo propõe a Quantização Matryoshka (MatQuant), uma técnica de quantização multi-escala inovadora que aborda o desafio de necessitar de múltiplos modelos quantizados. Ela permite treinar e manter apenas um modelo, que pode então ser disponibilizado em diferentes níveis de precisão. Além disso, devido à regularização de co-treinamento e co-destilação fornecida pelo MatQuant, os modelos de precisão int2 extraídos pelo MatQuant podem ser até 10% mais precisos do que a quantização int2 padrão (usando técnicas como QAT ou OmniQuant). Isso representa um progresso significativo na quantização de modelos, demonstrado pelo fato de que, com a mesma receita, um modelo Gemma-2 9B FFN-quantizado em int2 é mais preciso do que um modelo Gemma-2 2B FFN-quantizado em int8.
English
Quantizing model weights is critical for reducing the communication and inference costs of large models. However, quantizing models -- especially to low precisions like int4 or int2 -- requires a trade-off in model quality; int2, in particular, is known to severely degrade model quality. Consequently, practitioners are often forced to maintain multiple models with different quantization levels or serve a single model that best satisfies the quality-latency trade-off. On the other hand, integer data types, such as int8, inherently possess a nested (Matryoshka) structure where smaller bit-width integers, like int4 or int2, are nested within the most significant bits. This paper proposes Matryoshka Quantization (MatQuant), a novel multi-scale quantization technique that addresses the challenge of needing multiple quantized models. It allows training and maintaining just one model, which can then be served at different precision levels. Furthermore, due to the co-training and co-distillation regularization provided by MatQuant, the int2 precision models extracted by MatQuant can be up to 10% more accurate than standard int2 quantization (using techniques like QAT or OmniQuant). This represents significant progress in model quantization, demonstrated by the fact that, with the same recipe, an int2 FFN-quantized Gemma-2 9B model is more accurate than an int8 FFN-quantized Gemma-2 2B model.
PDF304February 11, 2025