Parametri vs FLOPs: Leggi di Scaling per la Sparsità Ottimale per i Modelli Linguistici Mixture-of-Experts
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
January 21, 2025
Autori: Samira Abnar, Harshay Shah, Dan Busbridge, Alaaeldin Mohamed Elnouby Ali, Josh Susskind, Vimal Thilak
cs.AI
Abstract
L'aumento della capacità dei modelli linguistici si è dimostrato costantemente un approccio affidabile per migliorare le prestazioni e sbloccare nuove capacità. La capacità può essere principalmente definita da due dimensioni: il numero di parametri del modello e il calcolo per esempio. Sebbene l'aumento della scala coinvolga tipicamente entrambi, l'interazione precisa tra questi fattori e il loro contributo combinato alla capacità complessiva non è ancora completamente compresa. Esploriamo questa relazione nel contesto dei Mixture-of-Experts (MoE) sparsi, che consentono di aumentare il numero di parametri senza aumentare proporzionalmente le FLOPs per esempio. Indaghiamo come variare il livello di sparsità, cioè la frazione di parametri inattivi, influenzi le prestazioni del modello durante il pretraining e la valutazione downstream a pochi esempi. Riscontriamo che sotto vincoli diversi (ad esempio, dimensione dei parametri e calcolo totale di addestramento), esiste un livello ottimale di sparsità che migliora sia l'efficienza dell'addestramento che le prestazioni del modello. Questi risultati forniscono una migliore comprensione dell'impatto della sparsità nelle leggi di scala per i MoE e integrano i lavori esistenti in questo settore, offrendo spunti per progettare architetture più efficienti.
English
Scaling the capacity of language models has consistently proven to be a
reliable approach for improving performance and unlocking new capabilities.
Capacity can be primarily defined by two dimensions: the number of model
parameters and the compute per example. While scaling typically involves
increasing both, the precise interplay between these factors and their combined
contribution to overall capacity remains not fully understood. We explore this
relationship in the context of sparse Mixture-of-Experts (MoEs), which allow
scaling the number of parameters without proportionally increasing the FLOPs
per example. We investigate how varying the sparsity level, i.e., the fraction
of inactive parameters, impacts model's performance during pretraining and
downstream few-shot evaluation. We find that under different constraints (e.g.,
parameter size and total training compute), there is an optimal level of
sparsity that improves both training efficiency and model performance. These
results provide a better understanding of the impact of sparsity in scaling
laws for MoEs and complement existing works in this area, offering insights for
designing more efficient architectures.Summary
AI-Generated Summary