Transformerトレーニングにおける大規模アクティベーションの隠れたダイナミクス
Hidden Dynamics of Massive Activations in Transformer Training
August 5, 2025
著者: Jorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos
cs.AI
要旨
大規模な活性化値は、トランスフォーマーの隠れ状態におけるスカラー値であり、典型的な活性化値よりも桁違いに大きな値を達成し、モデルの機能性にとって重要であることが示されています。これまでの研究では、完全に訓練されたモデルにおけるこれらの現象を特徴づけてきましたが、訓練中のそれらの出現の時間的ダイナミクスについては十分に理解されていません。本論文では、Pythiaモデルファミリーをテストベッドとして、トランスフォーマー訓練全体を通じた大規模な活性化値の発展に関する初の包括的な分析を提示します。複数の訓練チェックポイントにわたる様々なモデルサイズの系統的な分析を通じて、大規模な活性化値の出現が予測可能な数学的パターンに従い、5つの主要なパラメータを用いた指数関数的に変調された対数関数で正確にモデル化できることを示します。我々は、アーキテクチャ仕様のみからこれらの数学的パラメータを予測する機械学習フレームワークを開発し、定常状態の挙動に対して高い精度を、出現タイミングと大きさに対して中程度の精度を達成しました。これらの発見により、設計選択を通じて大規模な活性化値の出現の主要な側面を予測し、潜在的に制御することが可能となり、モデルの安定性、訓練サイクルの長さ、解釈可能性、最適化に重要な意味を持ちます。我々の発見は、大規模な活性化値の出現がモデル設計によって支配され、訓練開始前に予測し、潜在的に制御できることを示しています。
English
Massive activations are scalar values in transformer hidden states that
achieve values orders of magnitude larger than typical activations and have
been shown to be critical for model functionality. While prior work has
characterized these phenomena in fully trained models, the temporal dynamics of
their emergence during training remain poorly understood. We present the first
comprehensive analysis of massive activation development throughout transformer
training, using the Pythia model family as our testbed. Through systematic
analysis of various model sizes across multiple training checkpoints, we
demonstrate that massive activation emergence follows predictable mathematical
patterns that can be accurately modeled using an exponentially-modulated
logarithmic function with five key parameters. We develop a machine learning
framework to predict these mathematical parameters from architectural
specifications alone, achieving high accuracy for steady-state behavior and
moderate accuracy for emergence timing and magnitude. These findings enable
architects to predict and potentially control key aspects of massive activation
emergence through design choices, with significant implications for model
stability, training cycle length, interpretability, and optimization. Our
findings demonstrate that the emergence of massive activations is governed by
model design and can be anticipated, and potentially controlled, before
training begins.