Leggi di Scalabilità Unificate per Rappresentazioni Compresse
Unified Scaling Laws for Compressed Representations
June 2, 2025
Autori: Andrei Panferov, Alexandra Volkova, Ionut-Vlad Modoranu, Vage Egiazarian, Mher Safaryan, Dan Alistarh
cs.AI
Abstract
Le leggi di scala hanno plasmato i recenti progressi nel machine learning, consentendo una scalabilità prevedibile delle prestazioni del modello in base alle dimensioni del modello, alla potenza di calcolo e al volume dei dati. Parallelamente, l'aumento dei costi computazionali per l'IA ha motivato lo sviluppo di tecniche di compressione dei modelli, in particolare la quantizzazione e la sparsificazione, che sono emerse per mitigare le elevate esigenze computazionali associate all'addestramento e all'inferenza su larga scala. Questo articolo indaga l'interazione tra le leggi di scala e i formati di compressione, esplorando se un framework di scala unificato possa prevedere con precisione le prestazioni del modello quando l'addestramento avviene su varie rappresentazioni compresse, come formati sparsi, quantizzati scalarmente, sparsi-quantizzati o persino quantizzati vettorialmente. I nostri contributi principali includono la validazione di una formulazione generale delle leggi di scala e la dimostrazione che essa è applicabile sia individualmente che in modo composito tra diversi tipi di compressione. Sulla base di ciò, la nostra scoperta principale è dimostrare sia teoricamente che empiricamente l'esistenza di una semplice metrica di "capacità" — basata sulla capacità della rappresentazione di adattarsi a dati gaussiani casuali — che può prevedere in modo robusto l'efficienza dei parametri attraverso molteplici rappresentazioni compresse. Sul lato pratico, estendiamo la nostra formulazione per confrontare direttamente il potenziale di accuratezza di diversi formati compressi e per derivare algoritmi migliori per l'addestramento su formati sparsi-quantizzati.
English
Scaling laws have shaped recent advances in machine learning by enabling
predictable scaling of model performance based on model size, computation, and
data volume. Concurrently, the rise in computational cost for AI has motivated
model compression techniques, notably quantization and sparsification, which
have emerged to mitigate the steep computational demands associated with
large-scale training and inference. This paper investigates the interplay
between scaling laws and compression formats, exploring whether a unified
scaling framework can accurately predict model performance when training occurs
over various compressed representations, such as sparse, scalar-quantized,
sparse-quantized or even vector-quantized formats. Our key contributions
include validating a general scaling law formulation and showing that it is
applicable both individually but also composably across compression types.
Based on this, our main finding is demonstrating both theoretically and
empirically that there exists a simple "capacity" metric -- based on the
representation's ability to fit random Gaussian data -- which can robustly
predict parameter efficiency across multiple compressed representations. On the
practical side, we extend our formulation to directly compare the accuracy
potential of different compressed formats, and to derive better algorithms for
training over sparse-quantized formats.