Sparsiteitswet: Naar Grote Taalmodellen met Grotere Activatie Sparsity

Samenvatting

Activatieschaarste duidt op het bestaan van aanzienlijke zwak bijdragende elementen binnen activatie-uitvoer die geëlimineerd kunnen worden, wat ten goede komt aan vele belangrijke toepassingen die betrekking hebben op grote taalmodellen (LLM's). Hoewel het bevorderen van grotere activatieschaarste binnen LLM's diepgaande studies verdient, ontbreken bestaande werken uitgebreid en kwantitatief onderzoek naar de correlatie tussen activatieschaarste en potentieel invloedrijke factoren. In dit artikel presenteren we een uitgebreide studie naar de kwantitatieve schaaleigenschappen en invloedrijke factoren van de activatieschaarste binnen alleen-decoder Transformer-gebaseerde LLM's. Specifiek stellen we PPL-p% schaarste voor, een nauwkeurige en prestatiebewuste activatieschaarstemetriek die toepasbaar is op elke activatiefunctie. Via uitgebreide experimenten ontdekken we verschillende belangrijke fenomenen. Ten eerste vertonen verschillende activatiefuncties vergelijkbare prestaties maar tegengestelde trends in schaarste tijdens training. De activatieratio (d.w.z. 1-schaarsteratio) evolueert als een convergerende toenemende machtsfunctie en afnemende logaritmische machtsfunctie met de hoeveelheid trainingsgegevens voor respectievelijk SiLU-geactiveerde en ReLU-geactiveerde LLM's. Dit toont aan dat ReLU efficiënter is als activatiefunctie dan SiLU en meer trainingsgegevens kan benutten om activatieschaarste te verbeteren. Ten tweede neemt de activatieratio lineair toe met de breedte-diepte verhouding tot een bepaald bottleneckpunt, wat wijst op het potentiële voordeel van een diepere architectuur bij een vast parameterschaal. Ten slotte, bij vergelijkbare breedte-diepte verhoudingen, vinden we verrassend dat de limietwaarde van activatieschaarste zwak varieert met de parameterschaal, d.w.z. de activatiepatronen binnen LLM's zijn ongevoelig voor de parameterschaal. Deze empirische wetten met betrekking tot LLM's met grotere activatieschaarste hebben belangrijke implicaties voor het efficiënter en interpreteerbaarder maken van LLM's.

English

Activation sparsity denotes the existence of substantial weakly-contributed elements within activation outputs that can be eliminated, benefiting many important applications concerned with large language models (LLMs). Although promoting greater activation sparsity within LLMs deserves deep studies, existing works lack comprehensive and quantitative research on the correlation between activation sparsity and potentially influential factors. In this paper, we present a comprehensive study on the quantitative scaling properties and influential factors of the activation sparsity within decoder-only Transformer-based LLMs. Specifically, we propose PPL-p% sparsity, a precise and performance-aware activation sparsity metric that is applicable to any activation function. Through extensive experiments, we find several important phenomena. Firstly, different activation functions exhibit comparable performance but opposite training-time sparsity trends. The activation ratio (i.e., 1-sparsity ratio) evolves as a convergent increasing power-law and decreasing logspace power-law with the amount of training data for SiLU-activated and ReLU-activated LLMs, respectively. These demonstrate that ReLU is more efficient as the activation function than SiLU and can leverage more training data to improve activation sparsity. Secondly, the activation ratio linearly increases with the width-depth ratio below a certain bottleneck point, indicating the potential advantage of a deeper architecture at a fixed parameter scale. Finally, at similar width-depth ratios, we surprisingly find that the limit value of activation sparsity varies weakly with the parameter scale, i.e., the activation patterns within LLMs are insensitive to the parameter scale. These empirical laws towards LLMs with greater activation sparsity have important implications for making LLMs more efficient and interpretable.

Sparsiteitswet: Naar Grote Taalmodellen met Grotere Activatie Sparsity

Sparsing Law: Towards Large Language Models with Greater Activation Sparsity

Samenvatting

Support