Dynamiques cachées des activations massives dans l'entraînement des Transformers
Hidden Dynamics of Massive Activations in Transformer Training
August 5, 2025
papers.authors: Jorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos
cs.AI
papers.abstract
Les activations massives sont des valeurs scalaires dans les états cachés des transformateurs qui atteignent des valeurs plusieurs ordres de grandeur supérieures aux activations typiques et se sont révélées critiques pour la fonctionnalité du modèle. Alors que les travaux antérieurs ont caractérisé ces phénomènes dans des modèles entièrement entraînés, la dynamique temporelle de leur émergence pendant l'entraînement reste mal comprise. Nous présentons la première analyse complète du développement des activations massives tout au long de l'entraînement des transformateurs, en utilisant la famille de modèles Pythia comme banc d'essai. Grâce à une analyse systématique de différentes tailles de modèles sur plusieurs points de contrôle d'entraînement, nous démontrons que l'émergence des activations massives suit des modèles mathématiques prévisibles qui peuvent être modélisés avec précision à l'aide d'une fonction logarithmique modulée de manière exponentielle avec cinq paramètres clés. Nous développons un cadre d'apprentissage automatique pour prédire ces paramètres mathématiques à partir des spécifications architecturales uniquement, atteignant une grande précision pour le comportement en régime permanent et une précision modérée pour le moment et l'amplitude de l'émergence. Ces résultats permettent aux architectes de prédire et potentiellement de contrôler des aspects clés de l'émergence des activations massives grâce à des choix de conception, avec des implications significatives pour la stabilité du modèle, la durée du cycle d'entraînement, l'interprétabilité et l'optimisation. Nos résultats démontrent que l'émergence des activations massives est gouvernée par la conception du modèle et peut être anticipée, et potentiellement contrôlée, avant le début de l'entraînement.
English
Massive activations are scalar values in transformer hidden states that
achieve values orders of magnitude larger than typical activations and have
been shown to be critical for model functionality. While prior work has
characterized these phenomena in fully trained models, the temporal dynamics of
their emergence during training remain poorly understood. We present the first
comprehensive analysis of massive activation development throughout transformer
training, using the Pythia model family as our testbed. Through systematic
analysis of various model sizes across multiple training checkpoints, we
demonstrate that massive activation emergence follows predictable mathematical
patterns that can be accurately modeled using an exponentially-modulated
logarithmic function with five key parameters. We develop a machine learning
framework to predict these mathematical parameters from architectural
specifications alone, achieving high accuracy for steady-state behavior and
moderate accuracy for emergence timing and magnitude. These findings enable
architects to predict and potentially control key aspects of massive activation
emergence through design choices, with significant implications for model
stability, training cycle length, interpretability, and optimization. Our
findings demonstrate that the emergence of massive activations is governed by
model design and can be anticipated, and potentially controlled, before
training begins.