Verborgen Dynamieken van Massale Activaties in Transformer-training
Hidden Dynamics of Massive Activations in Transformer Training
August 5, 2025
Auteurs: Jorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos
cs.AI
Samenvatting
Massieve activaties zijn scalaire waarden in de verborgen toestanden van transformers die waarden bereiken die vele ordes van grootte groter zijn dan typische activaties en waarvan is aangetoond dat ze cruciaal zijn voor de functionaliteit van het model. Hoewel eerder onderzoek deze fenomenen heeft gekarakteriseerd in volledig getrainde modellen, blijven de temporele dynamiek van hun opkomst tijdens het trainen slecht begrepen. Wij presenteren de eerste uitgebreide analyse van de ontwikkeling van massieve activaties gedurende het trainen van transformers, waarbij we de Pythia-model familie als testomgeving gebruiken. Door systematische analyse van verschillende modelgroottes over meerdere trainingscheckpoints, tonen we aan dat de opkomst van massieve activaties voorspelbare wiskundige patronen volgt die nauwkeurig kunnen worden gemodelleerd met een exponentieel-gemoduleerde logaritmische functie met vijf sleutelparameters. We ontwikkelen een machine learning-framework om deze wiskundige parameters te voorspellen op basis van alleen architectuurspecificaties, waarbij we hoge nauwkeurigheid bereiken voor steady-state gedrag en matige nauwkeurigheid voor de timing en grootte van de opkomst. Deze bevindingen stellen architecten in staat om belangrijke aspecten van de opkomst van massieve activaties te voorspellen en mogelijk te beïnvloeden door ontwerpkeuzes, met significante implicaties voor modelstabiliteit, de duur van de trainingscyclus, interpreteerbaarheid en optimalisatie. Onze bevindingen tonen aan dat de opkomst van massieve activaties wordt bepaald door het modelontwerp en kan worden voorzien, en mogelijk beheerst, voordat het trainen begint.
English
Massive activations are scalar values in transformer hidden states that
achieve values orders of magnitude larger than typical activations and have
been shown to be critical for model functionality. While prior work has
characterized these phenomena in fully trained models, the temporal dynamics of
their emergence during training remain poorly understood. We present the first
comprehensive analysis of massive activation development throughout transformer
training, using the Pythia model family as our testbed. Through systematic
analysis of various model sizes across multiple training checkpoints, we
demonstrate that massive activation emergence follows predictable mathematical
patterns that can be accurately modeled using an exponentially-modulated
logarithmic function with five key parameters. We develop a machine learning
framework to predict these mathematical parameters from architectural
specifications alone, achieving high accuracy for steady-state behavior and
moderate accuracy for emergence timing and magnitude. These findings enable
architects to predict and potentially control key aspects of massive activation
emergence through design choices, with significant implications for model
stability, training cycle length, interpretability, and optimization. Our
findings demonstrate that the emergence of massive activations is governed by
model design and can be anticipated, and potentially controlled, before
training begins.