Dinámicas Ocultas de las Activaciones Masivas en el Entrenamiento de Transformers

Resumen

Las activaciones masivas son valores escalares en los estados ocultos de los transformadores que alcanzan valores órdenes de magnitud mayores que las activaciones típicas y se ha demostrado que son críticas para la funcionalidad del modelo. Si bien trabajos previos han caracterizado estos fenómenos en modelos completamente entrenados, la dinámica temporal de su aparición durante el entrenamiento sigue siendo poco comprendida. Presentamos el primer análisis exhaustivo del desarrollo de activaciones masivas a lo largo del entrenamiento de transformadores, utilizando la familia de modelos Pythia como plataforma de prueba. Mediante un análisis sistemático de varios tamaños de modelos en múltiples puntos de control del entrenamiento, demostramos que la aparición de activaciones masivas sigue patrones matemáticos predecibles que pueden modelarse con precisión utilizando una función logarítmica modulada exponencialmente con cinco parámetros clave. Desarrollamos un marco de aprendizaje automático para predecir estos parámetros matemáticos únicamente a partir de especificaciones arquitectónicas, logrando una alta precisión para el comportamiento en estado estable y una precisión moderada para el momento y la magnitud de la aparición. Estos hallazgos permiten a los arquitectos predecir y potencialmente controlar aspectos clave de la aparición de activaciones masivas a través de decisiones de diseño, con implicaciones significativas para la estabilidad del modelo, la duración del ciclo de entrenamiento, la interpretabilidad y la optimización. Nuestros hallazgos demuestran que la aparición de activaciones masivas está gobernada por el diseño del modelo y puede anticiparse, y potencialmente controlarse, antes de que comience el entrenamiento.

English

Massive activations are scalar values in transformer hidden states that achieve values orders of magnitude larger than typical activations and have been shown to be critical for model functionality. While prior work has characterized these phenomena in fully trained models, the temporal dynamics of their emergence during training remain poorly understood. We present the first comprehensive analysis of massive activation development throughout transformer training, using the Pythia model family as our testbed. Through systematic analysis of various model sizes across multiple training checkpoints, we demonstrate that massive activation emergence follows predictable mathematical patterns that can be accurately modeled using an exponentially-modulated logarithmic function with five key parameters. We develop a machine learning framework to predict these mathematical parameters from architectural specifications alone, achieving high accuracy for steady-state behavior and moderate accuracy for emergence timing and magnitude. These findings enable architects to predict and potentially control key aspects of massive activation emergence through design choices, with significant implications for model stability, training cycle length, interpretability, and optimization. Our findings demonstrate that the emergence of massive activations is governed by model design and can be anticipated, and potentially controlled, before training begins.

Dinámicas Ocultas de las Activaciones Masivas en el Entrenamiento de Transformers

Hidden Dynamics of Massive Activations in Transformer Training

Resumen

Support