Dinámicas Ocultas de las Activaciones Masivas en el Entrenamiento de Transformers
Hidden Dynamics of Massive Activations in Transformer Training
August 5, 2025
Autores: Jorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos
cs.AI
Resumen
Las activaciones masivas son valores escalares en los estados ocultos de los transformadores que alcanzan valores órdenes de magnitud mayores que las activaciones típicas y se ha demostrado que son críticas para la funcionalidad del modelo. Si bien trabajos previos han caracterizado estos fenómenos en modelos completamente entrenados, la dinámica temporal de su aparición durante el entrenamiento sigue siendo poco comprendida. Presentamos el primer análisis exhaustivo del desarrollo de activaciones masivas a lo largo del entrenamiento de transformadores, utilizando la familia de modelos Pythia como plataforma de prueba. Mediante un análisis sistemático de varios tamaños de modelos en múltiples puntos de control del entrenamiento, demostramos que la aparición de activaciones masivas sigue patrones matemáticos predecibles que pueden modelarse con precisión utilizando una función logarítmica modulada exponencialmente con cinco parámetros clave. Desarrollamos un marco de aprendizaje automático para predecir estos parámetros matemáticos únicamente a partir de especificaciones arquitectónicas, logrando una alta precisión para el comportamiento en estado estable y una precisión moderada para el momento y la magnitud de la aparición. Estos hallazgos permiten a los arquitectos predecir y potencialmente controlar aspectos clave de la aparición de activaciones masivas a través de decisiones de diseño, con implicaciones significativas para la estabilidad del modelo, la duración del ciclo de entrenamiento, la interpretabilidad y la optimización. Nuestros hallazgos demuestran que la aparición de activaciones masivas está gobernada por el diseño del modelo y puede anticiparse, y potencialmente controlarse, antes de que comience el entrenamiento.
English
Massive activations are scalar values in transformer hidden states that
achieve values orders of magnitude larger than typical activations and have
been shown to be critical for model functionality. While prior work has
characterized these phenomena in fully trained models, the temporal dynamics of
their emergence during training remain poorly understood. We present the first
comprehensive analysis of massive activation development throughout transformer
training, using the Pythia model family as our testbed. Through systematic
analysis of various model sizes across multiple training checkpoints, we
demonstrate that massive activation emergence follows predictable mathematical
patterns that can be accurately modeled using an exponentially-modulated
logarithmic function with five key parameters. We develop a machine learning
framework to predict these mathematical parameters from architectural
specifications alone, achieving high accuracy for steady-state behavior and
moderate accuracy for emergence timing and magnitude. These findings enable
architects to predict and potentially control key aspects of massive activation
emergence through design choices, with significant implications for model
stability, training cycle length, interpretability, and optimization. Our
findings demonstrate that the emergence of massive activations is governed by
model design and can be anticipated, and potentially controlled, before
training begins.