Lei da Esparsidade: Rumo a Modelos de Linguagem Grandes com Maior Ativação Esparsidade
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity
November 4, 2024
Autores: Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun
cs.AI
Resumo
A esparsidade de ativação denota a existência de elementos substancialmente pouco contribuintes dentro das saídas de ativação que podem ser eliminados, beneficiando muitas aplicações importantes relacionadas a modelos de linguagem grandes (LLMs). Embora promover uma maior esparsidade de ativação dentro de LLMs mereça estudos aprofundados, os trabalhos existentes carecem de pesquisas abrangentes e quantitativas sobre a correlação entre a esparsidade de ativação e fatores potencialmente influentes. Neste artigo, apresentamos um estudo abrangente sobre as propriedades de escala quantitativa e fatores influentes da esparsidade de ativação dentro de LLMs baseados em Transformer apenas no decodificador. Especificamente, propomos a esparsidade PPL-p%, uma métrica precisa e consciente do desempenho de esparsidade de ativação que é aplicável a qualquer função de ativação. Através de experimentos extensivos, encontramos vários fenômenos importantes. Em primeiro lugar, diferentes funções de ativação exibem desempenhos comparáveis, mas tendências de esparsidade no tempo de treinamento opostas. A taxa de ativação (ou seja, 1 - taxa de esparsidade) evolui como uma lei de potência crescente convergente e uma lei de potência decrescente em logspace com a quantidade de dados de treinamento para LLMs ativados por SiLU e ReLU, respectivamente. Isso demonstra que o ReLU é mais eficiente como função de ativação do que o SiLU e pode aproveitar mais dados de treinamento para melhorar a esparsidade de ativação. Em segundo lugar, a taxa de ativação aumenta linearmente com a relação largura-profundidade abaixo de um certo ponto de gargalo, indicando a vantagem potencial de uma arquitetura mais profunda em uma escala de parâmetros fixa. Por fim, em relações largura-profundidade semelhantes, descobrimos surpreendentemente que o valor limite da esparsidade de ativação varia fracamente com a escala de parâmetros, ou seja, os padrões de ativação dentro de LLMs são insensíveis à escala de parâmetros. Essas leis empíricas em direção a LLMs com maior esparsidade de ativação têm implicações importantes para tornar os LLMs mais eficientes e interpretáveis.
English
Activation sparsity denotes the existence of substantial weakly-contributed
elements within activation outputs that can be eliminated, benefiting many
important applications concerned with large language models (LLMs). Although
promoting greater activation sparsity within LLMs deserves deep studies,
existing works lack comprehensive and quantitative research on the correlation
between activation sparsity and potentially influential factors. In this paper,
we present a comprehensive study on the quantitative scaling properties and
influential factors of the activation sparsity within decoder-only
Transformer-based LLMs. Specifically, we propose PPL-p% sparsity, a precise
and performance-aware activation sparsity metric that is applicable to any
activation function. Through extensive experiments, we find several important
phenomena. Firstly, different activation functions exhibit comparable
performance but opposite training-time sparsity trends. The activation ratio
(i.e., 1-sparsity ratio) evolves as a convergent increasing
power-law and decreasing logspace power-law with the amount of training data
for SiLU-activated and ReLU-activated LLMs, respectively. These demonstrate
that ReLU is more efficient as the activation function than SiLU and can
leverage more training data to improve activation sparsity. Secondly, the
activation ratio linearly increases with the width-depth ratio below a certain
bottleneck point, indicating the potential advantage of a deeper architecture
at a fixed parameter scale. Finally, at similar width-depth ratios, we
surprisingly find that the limit value of activation sparsity varies weakly
with the parameter scale, i.e., the activation patterns within LLMs are
insensitive to the parameter scale. These empirical laws towards LLMs with
greater activation sparsity have important implications for making LLMs more
efficient and interpretable.Summary
AI-Generated Summary