Lois d'échelle unifiées pour les représentations compressées
Unified Scaling Laws for Compressed Representations
June 2, 2025
Auteurs: Andrei Panferov, Alexandra Volkova, Ionut-Vlad Modoranu, Vage Egiazarian, Mher Safaryan, Dan Alistarh
cs.AI
Résumé
Les lois d'échelle ont façonné les avancées récentes en apprentissage automatique en permettant une prédiction fiable de la performance des modèles en fonction de leur taille, de la puissance de calcul et du volume de données. Parallèlement, l'augmentation des coûts de calcul pour l'intelligence artificielle a motivé le développement de techniques de compression de modèles, notamment la quantification et la sparsification, qui visent à atténuer les exigences computationnelles élevées associées à l'entraînement et à l'inférence à grande échelle. Cet article étudie l'interaction entre les lois d'échelle et les formats de compression, en explorant si un cadre d'échelle unifié peut prédire avec précision la performance des modèles lorsque l'entraînement s'effectue sur diverses représentations compressées, telles que des formats sparsifiés, quantifiés scalairement, sparsifiés-quantifiés ou même quantifiés vectoriellement. Nos contributions principales incluent la validation d'une formulation générale des lois d'échelle et la démonstration de son applicabilité à la fois individuellement et de manière composée pour différents types de compression. Sur cette base, notre principal résultat est de montrer, à la fois théoriquement et empiriquement, qu'il existe une métrique simple de « capacité » — basée sur la capacité de la représentation à ajuster des données gaussiennes aléatoires — qui peut prédire de manière robuste l'efficacité des paramètres pour plusieurs représentations compressées. Sur le plan pratique, nous étendons notre formulation pour comparer directement le potentiel de précision de différents formats compressés et pour dériver de meilleurs algorithmes d'entraînement pour les formats sparsifiés-quantifiés.
English
Scaling laws have shaped recent advances in machine learning by enabling
predictable scaling of model performance based on model size, computation, and
data volume. Concurrently, the rise in computational cost for AI has motivated
model compression techniques, notably quantization and sparsification, which
have emerged to mitigate the steep computational demands associated with
large-scale training and inference. This paper investigates the interplay
between scaling laws and compression formats, exploring whether a unified
scaling framework can accurately predict model performance when training occurs
over various compressed representations, such as sparse, scalar-quantized,
sparse-quantized or even vector-quantized formats. Our key contributions
include validating a general scaling law formulation and showing that it is
applicable both individually but also composably across compression types.
Based on this, our main finding is demonstrating both theoretically and
empirically that there exists a simple "capacity" metric -- based on the
representation's ability to fit random Gaussian data -- which can robustly
predict parameter efficiency across multiple compressed representations. On the
practical side, we extend our formulation to directly compare the accuracy
potential of different compressed formats, and to derive better algorithms for
training over sparse-quantized formats.