Dinamiche Nascoste delle Attivazioni Massive nel Training dei Transformer
Hidden Dynamics of Massive Activations in Transformer Training
August 5, 2025
Autori: Jorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos
cs.AI
Abstract
Le attivazioni massive sono valori scalari negli stati nascosti dei transformer che raggiungono valori di ordini di grandezza superiori rispetto alle attivazioni tipiche e si sono dimostrati critici per il funzionamento del modello. Mentre lavori precedenti hanno caratterizzato questi fenomeni in modelli completamente addestrati, le dinamiche temporali della loro emersione durante l'addestramento rimangono poco comprese. Presentiamo la prima analisi completa dello sviluppo delle attivazioni massive durante l'addestramento dei transformer, utilizzando la famiglia di modelli Pythia come banco di prova. Attraverso un'analisi sistematica di varie dimensioni del modello in più checkpoint di addestramento, dimostriamo che l'emersione delle attivazioni massive segue schemi matematici prevedibili che possono essere accuratamente modellati utilizzando una funzione logaritmica modulata esponenzialmente con cinque parametri chiave. Sviluppiamo un framework di machine learning per prevedere questi parametri matematici dalle sole specifiche architetturali, raggiungendo un'elevata accuratezza per il comportamento in stato stazionario e un'accuratezza moderata per i tempi e l'entità dell'emersione. Questi risultati consentono ai progettisti di prevedere e potenzialmente controllare aspetti chiave dell'emersione delle attivazioni massive attraverso scelte di progettazione, con implicazioni significative per la stabilità del modello, la durata del ciclo di addestramento, l'interpretabilità e l'ottimizzazione. I nostri risultati dimostrano che l'emersione delle attivazioni massive è governata dal design del modello e può essere anticipata, e potenzialmente controllata, prima che inizi l'addestramento.
English
Massive activations are scalar values in transformer hidden states that
achieve values orders of magnitude larger than typical activations and have
been shown to be critical for model functionality. While prior work has
characterized these phenomena in fully trained models, the temporal dynamics of
their emergence during training remain poorly understood. We present the first
comprehensive analysis of massive activation development throughout transformer
training, using the Pythia model family as our testbed. Through systematic
analysis of various model sizes across multiple training checkpoints, we
demonstrate that massive activation emergence follows predictable mathematical
patterns that can be accurately modeled using an exponentially-modulated
logarithmic function with five key parameters. We develop a machine learning
framework to predict these mathematical parameters from architectural
specifications alone, achieving high accuracy for steady-state behavior and
moderate accuracy for emergence timing and magnitude. These findings enable
architects to predict and potentially control key aspects of massive activation
emergence through design choices, with significant implications for model
stability, training cycle length, interpretability, and optimization. Our
findings demonstrate that the emergence of massive activations is governed by
model design and can be anticipated, and potentially controlled, before
training begins.