ChatPaper.aiChatPaper

Parámetros vs FLOPs: Leyes de Escala para Esparsidad Óptima en Modelos de Lenguaje de Mezcla de Expertos

Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models

January 21, 2025
Autores: Samira Abnar, Harshay Shah, Dan Busbridge, Alaaeldin Mohamed Elnouby Ali, Josh Susskind, Vimal Thilak
cs.AI

Resumen

Escalar la capacidad de los modelos de lenguaje ha demostrado ser consistentemente un enfoque confiable para mejorar el rendimiento y desbloquear nuevas capacidades. La capacidad puede ser principalmente definida por dos dimensiones: el número de parámetros del modelo y la computación por ejemplo. Aunque el escalamiento generalmente implica aumentar ambos, la interacción precisa entre estos factores y su contribución combinada a la capacidad total aún no se comprende completamente. Exploramos esta relación en el contexto de Modelos de Expertos dispersos (MoEs), que permiten escalar el número de parámetros sin aumentar proporcionalmente las FLOPs por ejemplo. Investigamos cómo variar el nivel de dispersión, es decir, la fracción de parámetros inactivos, afecta el rendimiento del modelo durante el preentrenamiento y la evaluación de pocos disparos posteriores. Descubrimos que bajo diferentes restricciones (por ejemplo, tamaño de parámetros y computación total de entrenamiento), hay un nivel óptimo de dispersión que mejora tanto la eficiencia de entrenamiento como el rendimiento del modelo. Estos resultados proporcionan una mejor comprensión del impacto de la dispersión en las leyes de escalamiento para MoEs y complementan trabajos existentes en esta área, ofreciendo ideas para diseñar arquitecturas más eficientes.
English
Scaling the capacity of language models has consistently proven to be a reliable approach for improving performance and unlocking new capabilities. Capacity can be primarily defined by two dimensions: the number of model parameters and the compute per example. While scaling typically involves increasing both, the precise interplay between these factors and their combined contribution to overall capacity remains not fully understood. We explore this relationship in the context of sparse Mixture-of-Experts (MoEs), which allow scaling the number of parameters without proportionally increasing the FLOPs per example. We investigate how varying the sparsity level, i.e., the fraction of inactive parameters, impacts model's performance during pretraining and downstream few-shot evaluation. We find that under different constraints (e.g., parameter size and total training compute), there is an optimal level of sparsity that improves both training efficiency and model performance. These results provide a better understanding of the impact of sparsity in scaling laws for MoEs and complement existing works in this area, offering insights for designing more efficient architectures.

Summary

AI-Generated Summary

PDF112January 28, 2025