Sparsiteitswet: Naar Grote Taalmodellen met Grotere Activatie Sparsity
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity
November 4, 2024
Auteurs: Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun
cs.AI
Samenvatting
Activatieschaarste duidt op het bestaan van aanzienlijke zwak bijdragende elementen binnen activatie-uitvoer die geëlimineerd kunnen worden, wat ten goede komt aan vele belangrijke toepassingen die betrekking hebben op grote taalmodellen (LLM's). Hoewel het bevorderen van grotere activatieschaarste binnen LLM's diepgaande studies verdient, ontbreken bestaande werken uitgebreid en kwantitatief onderzoek naar de correlatie tussen activatieschaarste en potentieel invloedrijke factoren. In dit artikel presenteren we een uitgebreide studie naar de kwantitatieve schaaleigenschappen en invloedrijke factoren van de activatieschaarste binnen alleen-decoder Transformer-gebaseerde LLM's. Specifiek stellen we PPL-p% schaarste voor, een nauwkeurige en prestatiebewuste activatieschaarstemetriek die toepasbaar is op elke activatiefunctie. Via uitgebreide experimenten ontdekken we verschillende belangrijke fenomenen. Ten eerste vertonen verschillende activatiefuncties vergelijkbare prestaties maar tegengestelde trends in schaarste tijdens training. De activatieratio (d.w.z. 1-schaarsteratio) evolueert als een convergerende toenemende machtsfunctie en afnemende logaritmische machtsfunctie met de hoeveelheid trainingsgegevens voor respectievelijk SiLU-geactiveerde en ReLU-geactiveerde LLM's. Dit toont aan dat ReLU efficiënter is als activatiefunctie dan SiLU en meer trainingsgegevens kan benutten om activatieschaarste te verbeteren. Ten tweede neemt de activatieratio lineair toe met de breedte-diepte verhouding tot een bepaald bottleneckpunt, wat wijst op het potentiële voordeel van een diepere architectuur bij een vast parameterschaal. Ten slotte, bij vergelijkbare breedte-diepte verhoudingen, vinden we verrassend dat de limietwaarde van activatieschaarste zwak varieert met de parameterschaal, d.w.z. de activatiepatronen binnen LLM's zijn ongevoelig voor de parameterschaal. Deze empirische wetten met betrekking tot LLM's met grotere activatieschaarste hebben belangrijke implicaties voor het efficiënter en interpreteerbaarder maken van LLM's.
English
Activation sparsity denotes the existence of substantial weakly-contributed
elements within activation outputs that can be eliminated, benefiting many
important applications concerned with large language models (LLMs). Although
promoting greater activation sparsity within LLMs deserves deep studies,
existing works lack comprehensive and quantitative research on the correlation
between activation sparsity and potentially influential factors. In this paper,
we present a comprehensive study on the quantitative scaling properties and
influential factors of the activation sparsity within decoder-only
Transformer-based LLMs. Specifically, we propose PPL-p% sparsity, a precise
and performance-aware activation sparsity metric that is applicable to any
activation function. Through extensive experiments, we find several important
phenomena. Firstly, different activation functions exhibit comparable
performance but opposite training-time sparsity trends. The activation ratio
(i.e., 1-sparsity ratio) evolves as a convergent increasing
power-law and decreasing logspace power-law with the amount of training data
for SiLU-activated and ReLU-activated LLMs, respectively. These demonstrate
that ReLU is more efficient as the activation function than SiLU and can
leverage more training data to improve activation sparsity. Secondly, the
activation ratio linearly increases with the width-depth ratio below a certain
bottleneck point, indicating the potential advantage of a deeper architecture
at a fixed parameter scale. Finally, at similar width-depth ratios, we
surprisingly find that the limit value of activation sparsity varies weakly
with the parameter scale, i.e., the activation patterns within LLMs are
insensitive to the parameter scale. These empirical laws towards LLMs with
greater activation sparsity have important implications for making LLMs more
efficient and interpretable.Summary
AI-Generated Summary