ChatPaper.aiChatPaper

Parâmetros vs FLOPs: Leis de Escala para Esparsidade Ótima em Modelos de Linguagem Mixture-of-Experts

Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models

January 21, 2025
Autores: Samira Abnar, Harshay Shah, Dan Busbridge, Alaaeldin Mohamed Elnouby Ali, Josh Susskind, Vimal Thilak
cs.AI

Resumo

Aumentar a capacidade dos modelos de linguagem tem consistentemente se mostrado uma abordagem confiável para melhorar o desempenho e desbloquear novas capacidades. A capacidade pode ser principalmente definida por duas dimensões: o número de parâmetros do modelo e o cálculo por exemplo. Embora o escalonamento envolva tipicamente o aumento de ambos, a interação precisa entre esses fatores e sua contribuição combinada para a capacidade geral ainda não é totalmente compreendida. Exploramos essa relação no contexto dos Modelos de Especialistas Esparsos (MoEs), que permitem aumentar o número de parâmetros sem aumentar proporcionalmente as FLOPs por exemplo. Investigamos como variar o nível de esparsidade, ou seja, a fração de parâmetros inativos, impacta o desempenho do modelo durante o pré-treinamento e a avaliação downstream de poucas amostras. Descobrimos que sob diferentes restrições (por exemplo, tamanho dos parâmetros e cálculo total de treinamento), há um nível ótimo de esparsidade que melhora tanto a eficiência de treinamento quanto o desempenho do modelo. Esses resultados proporcionam uma melhor compreensão do impacto da esparsidade nas leis de escalonamento para MoEs e complementam trabalhos existentes nessa área, oferecendo insights para o design de arquiteturas mais eficientes.
English
Scaling the capacity of language models has consistently proven to be a reliable approach for improving performance and unlocking new capabilities. Capacity can be primarily defined by two dimensions: the number of model parameters and the compute per example. While scaling typically involves increasing both, the precise interplay between these factors and their combined contribution to overall capacity remains not fully understood. We explore this relationship in the context of sparse Mixture-of-Experts (MoEs), which allow scaling the number of parameters without proportionally increasing the FLOPs per example. We investigate how varying the sparsity level, i.e., the fraction of inactive parameters, impacts model's performance during pretraining and downstream few-shot evaluation. We find that under different constraints (e.g., parameter size and total training compute), there is an optimal level of sparsity that improves both training efficiency and model performance. These results provide a better understanding of the impact of sparsity in scaling laws for MoEs and complement existing works in this area, offering insights for designing more efficient architectures.

Summary

AI-Generated Summary

PDF112January 28, 2025