ChatPaper.aiChatPaper

Paramètres vs FLOPs : Lois d'échelle pour la sparsité optimale des modèles de langage Mixture-of-Experts

Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models

January 21, 2025
Auteurs: Samira Abnar, Harshay Shah, Dan Busbridge, Alaaeldin Mohamed Elnouby Ali, Josh Susskind, Vimal Thilak
cs.AI

Résumé

Augmenter la capacité des modèles de langage s'est avéré être une approche fiable pour améliorer les performances et débloquer de nouvelles capacités. La capacité peut être principalement définie par deux dimensions : le nombre de paramètres du modèle et le calcul par exemple. Alors que l'augmentation de la capacité implique généralement une augmentation des deux, l'interaction précise entre ces facteurs et leur contribution combinée à la capacité globale reste encore mal comprise. Nous explorons cette relation dans le contexte des Mélange d'Experts épars (MoEs), qui permettent d'augmenter le nombre de paramètres sans augmenter proportionnellement les FLOPs par exemple. Nous étudions comment la variation du niveau de sparsité, c'est-à-dire la fraction de paramètres inactifs, impacte les performances du modèle lors de la pré-entraînement et de l'évaluation en apprentissage par transfert à quelques exemples. Nous constatons qu'avec différentes contraintes (par exemple, la taille des paramètres et le calcul total d'entraînement), il existe un niveau optimal de sparsité qui améliore à la fois l'efficacité de l'entraînement et les performances du modèle. Ces résultats offrent une meilleure compréhension de l'impact de la sparsité dans les lois d'augmentation pour les MoEs et complètent les travaux existants dans ce domaine, offrant des perspectives pour la conception d'architectures plus efficaces.
English
Scaling the capacity of language models has consistently proven to be a reliable approach for improving performance and unlocking new capabilities. Capacity can be primarily defined by two dimensions: the number of model parameters and the compute per example. While scaling typically involves increasing both, the precise interplay between these factors and their combined contribution to overall capacity remains not fully understood. We explore this relationship in the context of sparse Mixture-of-Experts (MoEs), which allow scaling the number of parameters without proportionally increasing the FLOPs per example. We investigate how varying the sparsity level, i.e., the fraction of inactive parameters, impacts model's performance during pretraining and downstream few-shot evaluation. We find that under different constraints (e.g., parameter size and total training compute), there is an optimal level of sparsity that improves both training efficiency and model performance. These results provide a better understanding of the impact of sparsity in scaling laws for MoEs and complement existing works in this area, offering insights for designing more efficient architectures.

Summary

AI-Generated Summary

PDF112January 28, 2025