ChatPaper.aiChatPaper

Verborgene Dynamiken massiver Aktivierungen im Transformer-Training

Hidden Dynamics of Massive Activations in Transformer Training

August 5, 2025
papers.authors: Jorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos
cs.AI

papers.abstract

Massive Aktivierungen sind skalare Werte in den verborgenen Zuständen von Transformer-Modellen, die Werte erreichen, die um Größenordnungen größer sind als typische Aktivierungen und sich als entscheidend für die Funktionalität des Modells erwiesen haben. Während frühere Arbeiten diese Phänomene in vollständig trainierten Modellen charakterisiert haben, ist die zeitliche Dynamik ihres Auftretens während des Trainingsprozesses noch weitgehend unverstanden. Wir präsentieren die erste umfassende Analyse der Entwicklung von massiven Aktivierungen während des Transformer-Trainings, wobei wir die Pythia-Modellfamilie als Testumgebung verwenden. Durch systematische Analysen verschiedener Modellgrößen über mehrere Trainings-Checkpoints hinweg zeigen wir, dass das Auftreten von massiven Aktivierungen vorhersagbaren mathematischen Mustern folgt, die mithilfe einer exponentiell-modulierten logarithmischen Funktion mit fünf Schlüsselparametern genau modelliert werden können. Wir entwickeln ein maschinelles Lernframework, um diese mathematischen Parameter allein aus den architektonischen Spezifikationen vorherzusagen, wobei wir eine hohe Genauigkeit für das stationäre Verhalten und eine moderate Genauigkeit für den Zeitpunkt und die Größe des Auftretens erreichen. Diese Erkenntnisse ermöglichen es Architekten, Schlüsselaspekte des Auftretens von massiven Aktivierungen durch Designentscheidungen vorherzusagen und potenziell zu steuern, was erhebliche Auswirkungen auf die Modellstabilität, die Länge des Trainingszyklus, die Interpretierbarkeit und die Optimierung hat. Unsere Ergebnisse zeigen, dass das Auftreten von massiven Aktivierungen durch das Modelldesign bestimmt wird und vor Beginn des Trainings antizipiert und potenziell kontrolliert werden kann.
English
Massive activations are scalar values in transformer hidden states that achieve values orders of magnitude larger than typical activations and have been shown to be critical for model functionality. While prior work has characterized these phenomena in fully trained models, the temporal dynamics of their emergence during training remain poorly understood. We present the first comprehensive analysis of massive activation development throughout transformer training, using the Pythia model family as our testbed. Through systematic analysis of various model sizes across multiple training checkpoints, we demonstrate that massive activation emergence follows predictable mathematical patterns that can be accurately modeled using an exponentially-modulated logarithmic function with five key parameters. We develop a machine learning framework to predict these mathematical parameters from architectural specifications alone, achieving high accuracy for steady-state behavior and moderate accuracy for emergence timing and magnitude. These findings enable architects to predict and potentially control key aspects of massive activation emergence through design choices, with significant implications for model stability, training cycle length, interpretability, and optimization. Our findings demonstrate that the emergence of massive activations is governed by model design and can be anticipated, and potentially controlled, before training begins.
PDF174August 11, 2025