Skalierungsgesetze für spärlich vernetzte Basismodelle
Scaling Laws for Sparsely-Connected Foundation Models
September 15, 2023
Autoren: Elias Frantar, Carlos Riquelme, Neil Houlsby, Dan Alistarh, Utku Evci
cs.AI
Zusammenfassung
Wir untersuchen die Auswirkungen von Parametersparsität auf das Skalierungsverhalten von Transformern, die auf massiven Datensätzen trainiert werden (sogenannte „Foundation Models“), sowohl im visuellen als auch im sprachlichen Bereich. In diesem Kontext identifizieren wir das erste Skalierungsgesetz, das den Zusammenhang zwischen Gewichtssparsität, der Anzahl der nicht-null Parameter und der Menge der Trainingsdaten beschreibt, das wir empirisch über verschiedene Modell- und Datengrößen hinweg validieren; anhand von ViT/JFT-4B und T5/C4. Diese Ergebnisse ermöglichen es uns, die „optimale Sparsität“ zu charakterisieren, also den Sparsamkeitsgrad, der die beste Leistung für eine gegebene effektive Modellgröße und ein gegebenes Trainingsbudget liefert. Bei einer festen Anzahl von nicht-null Parametern stellen wir fest, dass die optimale Sparsität mit der Menge der verwendeten Trainingsdaten zunimmt. Wir erweitern unsere Studie außerdem auf verschiedene Sparsamkeitsstrukturen (wie das hardwarefreundliche n:m-Muster) und Strategien (wie das Starten von einem vortrainierten dichten Modell). Unsere Erkenntnisse beleuchten die Stärken und Grenzen der Gewichtssparsität in verschiedenen Parameter- und Recheneinstellungen und bieten sowohl theoretisches Verständnis als auch praktische Implikationen für die Nutzung von Sparsamkeit zur Verbesserung der Recheneffizienz.
English
We explore the impact of parameter sparsity on the scaling behavior of
Transformers trained on massive datasets (i.e., "foundation models"), in both
vision and language domains. In this setting, we identify the first scaling law
describing the relationship between weight sparsity, number of non-zero
parameters, and amount of training data, which we validate empirically across
model and data scales; on ViT/JFT-4B and T5/C4. These results allow us to
characterize the "optimal sparsity", the sparsity level which yields the best
performance for a given effective model size and training budget. For a fixed
number of non-zero parameters, we identify that the optimal sparsity increases
with the amount of data used for training. We also extend our study to
different sparsity structures (such as the hardware-friendly n:m pattern) and
strategies (such as starting from a pretrained dense model). Our findings shed
light on the power and limitations of weight sparsity across various parameter
and computational settings, offering both theoretical understanding and
practical implications for leveraging sparsity towards computational efficiency
improvements.