Verenigde schaalwetten voor gecomprimeerde representaties
Unified Scaling Laws for Compressed Representations
June 2, 2025
Auteurs: Andrei Panferov, Alexandra Volkova, Ionut-Vlad Modoranu, Vage Egiazarian, Mher Safaryan, Dan Alistarh
cs.AI
Samenvatting
Schaalwetten hebben recente vooruitgang in machine learning vormgegeven door het voorspelbaar schalen van modelprestaties mogelijk te maken op basis van modelgrootte, rekenkracht en datavolume. Tegelijkertijd heeft de stijging van de rekenkosten voor AI geleid tot modelcompressietechnieken, met name kwantisatie en versparsing, die zijn ontstaan om de hoge rekenkundige eisen die gepaard gaan met grootschalige training en inferentie te verminderen. Dit artikel onderzoekt de wisselwerking tussen schaalwetten en compressieformaten, waarbij wordt verkend of een uniform schaalraamwerk nauwkeurig de modelprestaties kan voorspellen wanneer training plaatsvindt over verschillende gecomprimeerde representaties, zoals verspreide, scalaire gekwantiseerde, verspreid-gekwantiseerde of zelfs vector-gekwantiseerde formaten. Onze belangrijkste bijdragen omvatten het valideren van een algemene formulering van schaalwetten en het aantonen dat deze zowel individueel als combineerbaar toepasbaar is over verschillende compressietypen. Op basis hiervan is onze belangrijkste bevinding dat we zowel theoretisch als empirisch aantonen dat er een eenvoudige "capaciteits"metriek bestaat – gebaseerd op het vermogen van de representatie om willekeurige Gaussische data te passen – die robuust de parameter-efficiëntie over meerdere gecomprimeerde representaties kan voorspellen. Praktisch gezien breiden we onze formulering uit om de nauwkeurigheidsmogelijkheden van verschillende gecomprimeerde formaten direct te vergelijken en om betere algoritmen af te leiden voor training over verspreid-gekwantiseerde formaten.
English
Scaling laws have shaped recent advances in machine learning by enabling
predictable scaling of model performance based on model size, computation, and
data volume. Concurrently, the rise in computational cost for AI has motivated
model compression techniques, notably quantization and sparsification, which
have emerged to mitigate the steep computational demands associated with
large-scale training and inference. This paper investigates the interplay
between scaling laws and compression formats, exploring whether a unified
scaling framework can accurately predict model performance when training occurs
over various compressed representations, such as sparse, scalar-quantized,
sparse-quantized or even vector-quantized formats. Our key contributions
include validating a general scaling law formulation and showing that it is
applicable both individually but also composably across compression types.
Based on this, our main finding is demonstrating both theoretically and
empirically that there exists a simple "capacity" metric -- based on the
representation's ability to fit random Gaussian data -- which can robustly
predict parameter efficiency across multiple compressed representations. On the
practical side, we extend our formulation to directly compare the accuracy
potential of different compressed formats, and to derive better algorithms for
training over sparse-quantized formats.