ChatPaper.aiChatPaper

Quantizzazione Matryoshka

Matryoshka Quantization

February 10, 2025
Autori: Pranav Nair, Puranjay Datta, Jeff Dean, Prateek Jain, Aditya Kusupati
cs.AI

Abstract

La quantizzazione dei pesi del modello è fondamentale per ridurre i costi di comunicazione e inferenza dei modelli di grandi dimensioni. Tuttavia, quantizzare i modelli - specialmente a basse precisioni come int4 o int2 - richiede un compromesso nella qualità del modello; in particolare, si sa che int2 degrada notevolmente la qualità del modello. Di conseguenza, spesso i professionisti sono costretti a mantenere diversi modelli con livelli di quantizzazione differenti o a servire un singolo modello che soddisfi al meglio il compromesso tra qualità e latenza. D'altra parte, i tipi di dati interi, come int8, possiedono intrinsecamente una struttura nidificata (Matryoshka) in cui interi di larghezza inferiore, come int4 o int2, sono nidificati nei bit più significativi. Questo articolo propone la Quantizzazione Matryoshka (MatQuant), una nuova tecnica di quantizzazione multi-scala che affronta la sfida di avere bisogno di modelli quantizzati multipli. Consente di addestrare e mantenere un solo modello, che può poi essere servito a diversi livelli di precisione. Inoltre, grazie alla regolarizzazione fornita da MatQuant, i modelli di precisione int2 estratti da MatQuant possono essere fino al 10% più precisi rispetto alla quantizzazione int2 standard (utilizzando tecniche come QAT o OmniQuant). Questo rappresenta un progresso significativo nella quantizzazione del modello, dimostrato dal fatto che, con la stessa ricetta, un modello Gemma-2 9B FFN-quantizzato a int2 è più preciso di un modello Gemma-2 2B FFN-quantizzato a int8.
English
Quantizing model weights is critical for reducing the communication and inference costs of large models. However, quantizing models -- especially to low precisions like int4 or int2 -- requires a trade-off in model quality; int2, in particular, is known to severely degrade model quality. Consequently, practitioners are often forced to maintain multiple models with different quantization levels or serve a single model that best satisfies the quality-latency trade-off. On the other hand, integer data types, such as int8, inherently possess a nested (Matryoshka) structure where smaller bit-width integers, like int4 or int2, are nested within the most significant bits. This paper proposes Matryoshka Quantization (MatQuant), a novel multi-scale quantization technique that addresses the challenge of needing multiple quantized models. It allows training and maintaining just one model, which can then be served at different precision levels. Furthermore, due to the co-training and co-distillation regularization provided by MatQuant, the int2 precision models extracted by MatQuant can be up to 10% more accurate than standard int2 quantization (using techniques like QAT or OmniQuant). This represents significant progress in model quantization, demonstrated by the fact that, with the same recipe, an int2 FFN-quantized Gemma-2 9B model is more accurate than an int8 FFN-quantized Gemma-2 2B model.

Summary

AI-Generated Summary

PDF304February 11, 2025