Leggi di Scalabilità Unificate per Rappresentazioni Compresse

Abstract

Le leggi di scala hanno plasmato i recenti progressi nel machine learning, consentendo una scalabilità prevedibile delle prestazioni del modello in base alle dimensioni del modello, alla potenza di calcolo e al volume dei dati. Parallelamente, l'aumento dei costi computazionali per l'IA ha motivato lo sviluppo di tecniche di compressione dei modelli, in particolare la quantizzazione e la sparsificazione, che sono emerse per mitigare le elevate esigenze computazionali associate all'addestramento e all'inferenza su larga scala. Questo articolo indaga l'interazione tra le leggi di scala e i formati di compressione, esplorando se un framework di scala unificato possa prevedere con precisione le prestazioni del modello quando l'addestramento avviene su varie rappresentazioni compresse, come formati sparsi, quantizzati scalarmente, sparsi-quantizzati o persino quantizzati vettorialmente. I nostri contributi principali includono la validazione di una formulazione generale delle leggi di scala e la dimostrazione che essa è applicabile sia individualmente che in modo composito tra diversi tipi di compressione. Sulla base di ciò, la nostra scoperta principale è dimostrare sia teoricamente che empiricamente l'esistenza di una semplice metrica di "capacità" — basata sulla capacità della rappresentazione di adattarsi a dati gaussiani casuali — che può prevedere in modo robusto l'efficienza dei parametri attraverso molteplici rappresentazioni compresse. Sul lato pratico, estendiamo la nostra formulazione per confrontare direttamente il potenziale di accuratezza di diversi formati compressi e per derivare algoritmi migliori per l'addestramento su formati sparsi-quantizzati.

English

Scaling laws have shaped recent advances in machine learning by enabling predictable scaling of model performance based on model size, computation, and data volume. Concurrently, the rise in computational cost for AI has motivated model compression techniques, notably quantization and sparsification, which have emerged to mitigate the steep computational demands associated with large-scale training and inference. This paper investigates the interplay between scaling laws and compression formats, exploring whether a unified scaling framework can accurately predict model performance when training occurs over various compressed representations, such as sparse, scalar-quantized, sparse-quantized or even vector-quantized formats. Our key contributions include validating a general scaling law formulation and showing that it is applicable both individually but also composably across compression types. Based on this, our main finding is demonstrating both theoretically and empirically that there exists a simple "capacity" metric -- based on the representation's ability to fit random Gaussian data -- which can robustly predict parameter efficiency across multiple compressed representations. On the practical side, we extend our formulation to directly compare the accuracy potential of different compressed formats, and to derive better algorithms for training over sparse-quantized formats.

Leggi di Scalabilità Unificate per Rappresentazioni Compresse

Unified Scaling Laws for Compressed Representations

Abstract

Support