Lois d'échelle pour les modèles de fondation à connectivité parcimonieuse
Scaling Laws for Sparsely-Connected Foundation Models
September 15, 2023
Auteurs: Elias Frantar, Carlos Riquelme, Neil Houlsby, Dan Alistarh, Utku Evci
cs.AI
Résumé
Nous explorons l'impact de la parcimonie des paramètres sur le comportement de mise à l'échelle des Transformers entraînés sur des ensembles de données massifs (c'est-à-dire des "modèles de base"), dans les domaines de la vision et du langage. Dans ce contexte, nous identifions la première loi de mise à l'échelle décrivant la relation entre la parcimonie des poids, le nombre de paramètres non nuls et la quantité de données d'entraînement, que nous validons empiriquement à travers différentes échelles de modèles et de données ; sur ViT/JFT-4B et T5/C4. Ces résultats nous permettent de caractériser la "parcimonie optimale", le niveau de parcimonie qui offre les meilleures performances pour une taille de modèle effective et un budget d'entraînement donnés. Pour un nombre fixe de paramètres non nuls, nous identifions que la parcimonie optimale augmente avec la quantité de données utilisées pour l'entraînement. Nous étendons également notre étude à différentes structures de parcimonie (telles que le motif n:m adapté au matériel) et stratégies (comme partir d'un modèle dense pré-entraîné). Nos résultats éclairent la puissance et les limites de la parcimonie des poids dans divers contextes de paramètres et de calcul, offrant à la fois une compréhension théorique et des implications pratiques pour exploiter la parcimonie afin d'améliorer l'efficacité computationnelle.
English
We explore the impact of parameter sparsity on the scaling behavior of
Transformers trained on massive datasets (i.e., "foundation models"), in both
vision and language domains. In this setting, we identify the first scaling law
describing the relationship between weight sparsity, number of non-zero
parameters, and amount of training data, which we validate empirically across
model and data scales; on ViT/JFT-4B and T5/C4. These results allow us to
characterize the "optimal sparsity", the sparsity level which yields the best
performance for a given effective model size and training budget. For a fixed
number of non-zero parameters, we identify that the optimal sparsity increases
with the amount of data used for training. We also extend our study to
different sparsity structures (such as the hardware-friendly n:m pattern) and
strategies (such as starting from a pretrained dense model). Our findings shed
light on the power and limitations of weight sparsity across various parameter
and computational settings, offering both theoretical understanding and
practical implications for leveraging sparsity towards computational efficiency
improvements.