Paramètres vs FLOPs : Lois d'échelle pour la sparsité optimale des modèles de langage Mixture-of-Experts
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
January 21, 2025
Auteurs: Samira Abnar, Harshay Shah, Dan Busbridge, Alaaeldin Mohamed Elnouby Ali, Josh Susskind, Vimal Thilak
cs.AI
Résumé
Augmenter la capacité des modèles de langage s'est avéré être une approche fiable pour améliorer les performances et débloquer de nouvelles capacités. La capacité peut être principalement définie par deux dimensions : le nombre de paramètres du modèle et le calcul par exemple. Alors que l'augmentation de la capacité implique généralement une augmentation des deux, l'interaction précise entre ces facteurs et leur contribution combinée à la capacité globale reste encore mal comprise. Nous explorons cette relation dans le contexte des Mélange d'Experts épars (MoEs), qui permettent d'augmenter le nombre de paramètres sans augmenter proportionnellement les FLOPs par exemple. Nous étudions comment la variation du niveau de sparsité, c'est-à-dire la fraction de paramètres inactifs, impacte les performances du modèle lors de la pré-entraînement et de l'évaluation en apprentissage par transfert à quelques exemples. Nous constatons qu'avec différentes contraintes (par exemple, la taille des paramètres et le calcul total d'entraînement), il existe un niveau optimal de sparsité qui améliore à la fois l'efficacité de l'entraînement et les performances du modèle. Ces résultats offrent une meilleure compréhension de l'impact de la sparsité dans les lois d'augmentation pour les MoEs et complètent les travaux existants dans ce domaine, offrant des perspectives pour la conception d'architectures plus efficaces.
English
Scaling the capacity of language models has consistently proven to be a
reliable approach for improving performance and unlocking new capabilities.
Capacity can be primarily defined by two dimensions: the number of model
parameters and the compute per example. While scaling typically involves
increasing both, the precise interplay between these factors and their combined
contribution to overall capacity remains not fully understood. We explore this
relationship in the context of sparse Mixture-of-Experts (MoEs), which allow
scaling the number of parameters without proportionally increasing the FLOPs
per example. We investigate how varying the sparsity level, i.e., the fraction
of inactive parameters, impacts model's performance during pretraining and
downstream few-shot evaluation. We find that under different constraints (e.g.,
parameter size and total training compute), there is an optimal level of
sparsity that improves both training efficiency and model performance. These
results provide a better understanding of the impact of sparsity in scaling
laws for MoEs and complement existing works in this area, offering insights for
designing more efficient architectures.Summary
AI-Generated Summary