Einheitliche Skalierungsgesetze für komprimierte Darstellungen
Unified Scaling Laws for Compressed Representations
June 2, 2025
Autoren: Andrei Panferov, Alexandra Volkova, Ionut-Vlad Modoranu, Vage Egiazarian, Mher Safaryan, Dan Alistarh
cs.AI
Zusammenfassung
Skalierungsgesetze haben die jüngsten Fortschritte im maschinellen Lernen geprägt, indem sie eine vorhersehbare Skalierung der Modellleistung basierend auf Modellgröße, Rechenleistung und Datenvolumen ermöglichten. Gleichzeitig hat der Anstieg der Rechenkosten für KI die Entwicklung von Modellkomprimierungstechniken motiviert, insbesondere Quantisierung und Sparsifizierung, die entstanden sind, um den hohen Rechenaufwand im Zusammenhang mit dem Training und der Inferenz in großem Maßstab zu mindern. Diese Arbeit untersucht das Zusammenspiel zwischen Skalierungsgesetzen und Komprimierungsformaten und erforscht, ob ein einheitliches Skalierungsframework die Modellleistung genau vorhersagen kann, wenn das Training über verschiedene komprimierte Darstellungen wie spärliche, skalare-quantisierte, spärlich-quantisierte oder sogar vektor-quantisierte Formate erfolgt. Unsere wesentlichen Beiträge umfassen die Validierung einer allgemeinen Formulierung des Skalierungsgesetzes und den Nachweis, dass es sowohl einzeln als auch kombiniert über verschiedene Komprimierungstypen hinweg anwendbar ist. Basierend darauf ist unsere Haupterkenntnis, dass wir sowohl theoretisch als auch empirisch zeigen, dass es eine einfache „Kapazitäts“-Metrik gibt – basierend auf der Fähigkeit der Darstellung, zufällige Gaußsche Daten anzupassen –, die die Parametereffizienz über mehrere komprimierte Darstellungen hinweg robust vorhersagen kann. Auf der praktischen Seite erweitern wir unsere Formulierung, um die Genauigkeitspotenziale verschiedener komprimierter Formate direkt zu vergleichen und bessere Algorithmen für das Training über spärlich-quantisierte Formate abzuleiten.
English
Scaling laws have shaped recent advances in machine learning by enabling
predictable scaling of model performance based on model size, computation, and
data volume. Concurrently, the rise in computational cost for AI has motivated
model compression techniques, notably quantization and sparsification, which
have emerged to mitigate the steep computational demands associated with
large-scale training and inference. This paper investigates the interplay
between scaling laws and compression formats, exploring whether a unified
scaling framework can accurately predict model performance when training occurs
over various compressed representations, such as sparse, scalar-quantized,
sparse-quantized or even vector-quantized formats. Our key contributions
include validating a general scaling law formulation and showing that it is
applicable both individually but also composably across compression types.
Based on this, our main finding is demonstrating both theoretically and
empirically that there exists a simple "capacity" metric -- based on the
representation's ability to fit random Gaussian data -- which can robustly
predict parameter efficiency across multiple compressed representations. On the
practical side, we extend our formulation to directly compare the accuracy
potential of different compressed formats, and to derive better algorithms for
training over sparse-quantized formats.