Leggi di Scalabilità per Modelli Fondamentali a Connessione Sparsa
Scaling Laws for Sparsely-Connected Foundation Models
September 15, 2023
Autori: Elias Frantar, Carlos Riquelme, Neil Houlsby, Dan Alistarh, Utku Evci
cs.AI
Abstract
Esploriamo l'impatto della sparsità dei parametri sul comportamento di scalabilità dei Transformer addestrati su dataset di grandi dimensioni (cioè, "modelli di base"), sia nel dominio visivo che linguistico. In questo contesto, identifichiamo la prima legge di scalabilità che descrive la relazione tra sparsità dei pesi, numero di parametri non nulli e quantità di dati di addestramento, che validiamo empiricamente su diverse scale di modelli e dati; su ViT/JFT-4B e T5/C4. Questi risultati ci permettono di caratterizzare la "sparsità ottimale", il livello di sparsità che fornisce le migliori prestazioni per una data dimensione effettiva del modello e budget di addestramento. Per un numero fisso di parametri non nulli, identifichiamo che la sparsità ottimale aumenta con la quantità di dati utilizzati per l'addestramento. Estendiamo inoltre il nostro studio a diverse strutture di sparsità (come il pattern n:m compatibile con l'hardware) e strategie (come partire da un modello denso pre-addestrato). Le nostre scoperte gettano luce sui poteri e i limiti della sparsità dei pesi in vari contesti parametrici e computazionali, offrendo sia una comprensione teorica che implicazioni pratiche per sfruttare la sparsità verso miglioramenti dell'efficienza computazionale.
English
We explore the impact of parameter sparsity on the scaling behavior of
Transformers trained on massive datasets (i.e., "foundation models"), in both
vision and language domains. In this setting, we identify the first scaling law
describing the relationship between weight sparsity, number of non-zero
parameters, and amount of training data, which we validate empirically across
model and data scales; on ViT/JFT-4B and T5/C4. These results allow us to
characterize the "optimal sparsity", the sparsity level which yields the best
performance for a given effective model size and training budget. For a fixed
number of non-zero parameters, we identify that the optimal sparsity increases
with the amount of data used for training. We also extend our study to
different sparsity structures (such as the hardware-friendly n:m pattern) and
strategies (such as starting from a pretrained dense model). Our findings shed
light on the power and limitations of weight sparsity across various parameter
and computational settings, offering both theoretical understanding and
practical implications for leveraging sparsity towards computational efficiency
improvements.