Ley de Esparsidad: Hacia Modelos de Lenguaje Grandes con Mayor Activación Esparsidad
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity
November 4, 2024
Autores: Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun
cs.AI
Resumen
La esparcidad de activación denota la existencia de elementos débilmente contribuidos sustanciales dentro de las salidas de activación que pueden ser eliminados, beneficiando a muchas aplicaciones importantes relacionadas con modelos de lenguaje grandes (LLMs). Aunque promover una mayor esparcidad de activación dentro de los LLMs merece estudios profundos, los trabajos existentes carecen de investigaciones exhaustivas y cuantitativas sobre la correlación entre la esparcidad de activación y factores potencialmente influyentes. En este artículo, presentamos un estudio exhaustivo sobre las propiedades de escalamiento cuantitativo y los factores influyentes de la esparcidad de activación dentro de LLMs basados únicamente en decodificadores Transformer. Específicamente, proponemos la esparcidad PPL-p%, una métrica de esparcidad de activación precisa y consciente del rendimiento que es aplicable a cualquier función de activación. A través de experimentos extensos, encontramos varios fenómenos importantes. En primer lugar, diferentes funciones de activación exhiben un rendimiento comparable pero tendencias opuestas de esparcidad en el tiempo de entrenamiento. La proporción de activación (es decir, la proporción de no esparcidad) evoluciona como una ley de potencia creciente convergente y una ley de potencia de espacio logarítmico decreciente con la cantidad de datos de entrenamiento para LLMs activados por SiLU y ReLU, respectivamente. Esto demuestra que ReLU es más eficiente como función de activación que SiLU y puede aprovechar más datos de entrenamiento para mejorar la esparcidad de activación. En segundo lugar, la proporción de activación aumenta linealmente con la proporción de ancho-profundidad por debajo de cierto punto de cuello de botella, lo que indica la ventaja potencial de una arquitectura más profunda en una escala de parámetros fija. Finalmente, en proporciones de ancho-profundidad similares, encontramos sorprendentemente que el valor límite de la esparcidad de activación varía débilmente con la escala de parámetros, es decir, los patrones de activación dentro de los LLMs son insensibles a la escala de parámetros. Estas leyes empíricas hacia LLMs con una mayor esparcidad de activación tienen implicaciones importantes para hacer que los LLMs sean más eficientes e interpretables.
English
Activation sparsity denotes the existence of substantial weakly-contributed
elements within activation outputs that can be eliminated, benefiting many
important applications concerned with large language models (LLMs). Although
promoting greater activation sparsity within LLMs deserves deep studies,
existing works lack comprehensive and quantitative research on the correlation
between activation sparsity and potentially influential factors. In this paper,
we present a comprehensive study on the quantitative scaling properties and
influential factors of the activation sparsity within decoder-only
Transformer-based LLMs. Specifically, we propose PPL-p% sparsity, a precise
and performance-aware activation sparsity metric that is applicable to any
activation function. Through extensive experiments, we find several important
phenomena. Firstly, different activation functions exhibit comparable
performance but opposite training-time sparsity trends. The activation ratio
(i.e., 1-sparsity ratio) evolves as a convergent increasing
power-law and decreasing logspace power-law with the amount of training data
for SiLU-activated and ReLU-activated LLMs, respectively. These demonstrate
that ReLU is more efficient as the activation function than SiLU and can
leverage more training data to improve activation sparsity. Secondly, the
activation ratio linearly increases with the width-depth ratio below a certain
bottleneck point, indicating the potential advantage of a deeper architecture
at a fixed parameter scale. Finally, at similar width-depth ratios, we
surprisingly find that the limit value of activation sparsity varies weakly
with the parameter scale, i.e., the activation patterns within LLMs are
insensitive to the parameter scale. These empirical laws towards LLMs with
greater activation sparsity have important implications for making LLMs more
efficient and interpretable.Summary
AI-Generated Summary