Разреженный закон: к большим языковым моделям с большим активированием Разреженность
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity
November 4, 2024
Авторы: Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun
cs.AI
Аннотация
Разреженность активации обозначает наличие значительного количества слабо вкладывающихся элементов в выходах активации, которые могут быть устранены, что полезно для многих важных приложений, связанных с большими языковыми моделями (LLM). Хотя повышение разреженности активации в LLM заслуживает глубоких исследований, существующие работы не имеют комплексного и количественного исследования корреляции между разреженностью активации и потенциально влиятельными факторами. В данной статье мы представляем комплексное исследование количественных свойств масштабирования и влиятельных факторов разреженности активации в LLM только с декодером на основе трансформера. Конкретно, мы предлагаем PPL-p% разреженность, точную и ориентированную на производительность метрику разреженности активации, применимую к любой функции активации. Через обширные эксперименты мы обнаруживаем несколько важных явлений. Во-первых, различные функции активации демонстрируют сопоставимую производительность, но противоположные тенденции разреженности во время обучения. Соотношение активации (т.е. 1 - соотношение разреженности) развивается как сходящаяся увеличивающаяся степенная функция и убывающая логарифмическая степенная функция с количеством обучающих данных для LLM с активацией SiLU и ReLU соответственно. Это демонстрирует, что ReLU более эффективна как функция активации, чем SiLU, и может использовать больше обучающих данных для улучшения разреженности активации. Во-вторых, соотношение активации линейно увеличивается с отношением ширины к глубине ниже определенной узкой точки, указывая на потенциальное преимущество более глубокой архитектуры при фиксированном параметрическом масштабе. Наконец, при сходных отношениях ширины к глубине мы обнаруживаем, что предельное значение разреженности активации слабо изменяется с параметрическим масштабом, т.е. образцы активации в LLM нечувствительны к параметрическому масштабу. Эти эмпирические законы в отношении LLM с более высокой разреженностью активации имеют важные последствия для повышения эффективности и интерпретируемости LLM.
English
Activation sparsity denotes the existence of substantial weakly-contributed
elements within activation outputs that can be eliminated, benefiting many
important applications concerned with large language models (LLMs). Although
promoting greater activation sparsity within LLMs deserves deep studies,
existing works lack comprehensive and quantitative research on the correlation
between activation sparsity and potentially influential factors. In this paper,
we present a comprehensive study on the quantitative scaling properties and
influential factors of the activation sparsity within decoder-only
Transformer-based LLMs. Specifically, we propose PPL-p% sparsity, a precise
and performance-aware activation sparsity metric that is applicable to any
activation function. Through extensive experiments, we find several important
phenomena. Firstly, different activation functions exhibit comparable
performance but opposite training-time sparsity trends. The activation ratio
(i.e., 1-sparsity ratio) evolves as a convergent increasing
power-law and decreasing logspace power-law with the amount of training data
for SiLU-activated and ReLU-activated LLMs, respectively. These demonstrate
that ReLU is more efficient as the activation function than SiLU and can
leverage more training data to improve activation sparsity. Secondly, the
activation ratio linearly increases with the width-depth ratio below a certain
bottleneck point, indicating the potential advantage of a deeper architecture
at a fixed parameter scale. Finally, at similar width-depth ratios, we
surprisingly find that the limit value of activation sparsity varies weakly
with the parameter scale, i.e., the activation patterns within LLMs are
insensitive to the parameter scale. These empirical laws towards LLMs with
greater activation sparsity have important implications for making LLMs more
efficient and interpretable.Summary
AI-Generated Summary