Leis de Escalabilidade para Modelos Fundamentais com Conectividade Esparsa
Scaling Laws for Sparsely-Connected Foundation Models
September 15, 2023
Autores: Elias Frantar, Carlos Riquelme, Neil Houlsby, Dan Alistarh, Utku Evci
cs.AI
Resumo
Exploramos o impacto da esparsidade de parâmetros no comportamento de escalonamento de Transformers treinados em conjuntos de dados massivos (ou seja, "modelos de base"), tanto em domínios visuais quanto linguísticos. Nesse contexto, identificamos a primeira lei de escalonamento que descreve a relação entre a esparsidade dos pesos, o número de parâmetros não nulos e a quantidade de dados de treinamento, que validamos empiricamente em diferentes escalas de modelos e dados; em ViT/JFT-4B e T5/C4. Esses resultados nos permitem caracterizar a "esparsidade ótima", o nível de esparsidade que proporciona o melhor desempenho para um determinado tamanho efetivo de modelo e orçamento de treinamento. Para um número fixo de parâmetros não nulos, identificamos que a esparsidade ótima aumenta com a quantidade de dados utilizados no treinamento. Também estendemos nosso estudo para diferentes estruturas de esparsidade (como o padrão n:m amigável ao hardware) e estratégias (como começar a partir de um modelo denso pré-treinado). Nossas descobertas esclarecem o poder e as limitações da esparsidade de pesos em diversos cenários de parâmetros e computacionais, oferecendo tanto compreensão teórica quanto implicações práticas para o aproveitamento da esparsidade visando melhorias na eficiência computacional.
English
We explore the impact of parameter sparsity on the scaling behavior of
Transformers trained on massive datasets (i.e., "foundation models"), in both
vision and language domains. In this setting, we identify the first scaling law
describing the relationship between weight sparsity, number of non-zero
parameters, and amount of training data, which we validate empirically across
model and data scales; on ViT/JFT-4B and T5/C4. These results allow us to
characterize the "optimal sparsity", the sparsity level which yields the best
performance for a given effective model size and training budget. For a fixed
number of non-zero parameters, we identify that the optimal sparsity increases
with the amount of data used for training. We also extend our study to
different sparsity structures (such as the hardware-friendly n:m pattern) and
strategies (such as starting from a pretrained dense model). Our findings shed
light on the power and limitations of weight sparsity across various parameter
and computational settings, offering both theoretical understanding and
practical implications for leveraging sparsity towards computational efficiency
improvements.