Schaalwetten voor Sparse Verbonden Fundamentmodellen
Scaling Laws for Sparsely-Connected Foundation Models
September 15, 2023
Auteurs: Elias Frantar, Carlos Riquelme, Neil Houlsby, Dan Alistarh, Utku Evci
cs.AI
Samenvatting
We onderzoeken de impact van parametersparsheid op het schaalgedrag van Transformers die getraind zijn op enorme datasets (d.w.z. "foundation models"), zowel in visuele als taalkundige domeinen. In deze context identificeren we de eerste schaalwet die de relatie beschrijft tussen gewichtssparsheid, het aantal niet-nul parameters en de hoeveelheid trainingsdata, wat we empirisch valideren over verschillende model- en dataschaalniveaus; op ViT/JFT-4B en T5/C4. Deze resultaten stellen ons in staat om de "optimale sparsheid" te karakteriseren, het sparsheidsniveau dat de beste prestaties levert voor een gegeven effectieve modelgrootte en trainingsbudget. Voor een vast aantal niet-nul parameters identificeren we dat de optimale sparsheid toeneemt met de hoeveelheid data die gebruikt wordt voor training. We breiden ons onderzoek ook uit naar verschillende sparsheidsstructuren (zoals het hardwarevriendelijke n:m-patroon) en strategieën (zoals starten vanuit een voorgetraind dicht model). Onze bevindingen werpen licht op de kracht en beperkingen van gewichtssparsheid in verschillende parameter- en computationele instellingen, en bieden zowel theoretisch inzicht als praktische implicaties voor het benutten van sparsheid om computationele efficiëntie te verbeteren.
English
We explore the impact of parameter sparsity on the scaling behavior of
Transformers trained on massive datasets (i.e., "foundation models"), in both
vision and language domains. In this setting, we identify the first scaling law
describing the relationship between weight sparsity, number of non-zero
parameters, and amount of training data, which we validate empirically across
model and data scales; on ViT/JFT-4B and T5/C4. These results allow us to
characterize the "optimal sparsity", the sparsity level which yields the best
performance for a given effective model size and training budget. For a fixed
number of non-zero parameters, we identify that the optimal sparsity increases
with the amount of data used for training. We also extend our study to
different sparsity structures (such as the hardware-friendly n:m pattern) and
strategies (such as starting from a pretrained dense model). Our findings shed
light on the power and limitations of weight sparsity across various parameter
and computational settings, offering both theoretical understanding and
practical implications for leveraging sparsity towards computational efficiency
improvements.