すべてを説明する単一の層:大規模言語モデルにおける巨大な活性化の理解
A Single Layer to Explain Them All:Understanding Massive Activations in Large Language Models
May 8, 2026
著者: Zeru Shi, Zhenting Wang, Fan Yang, Qifan Wang, Ruixiang Tang
cs.AI
要旨
我々は、大規模言語モデル(LLM)における巨大活性化の起源を調査し、モデルファミリー全体で一貫して観察される、巨大活性化が最初に出現し、その後残差接続を通じてより深い層へ伝播する特定の層をMassive Emergence層(ME層)として特定する。ME層内では、RMSNormとFFNパラメータの両方が共同して巨大活性化の出現に寄与することを示す。一旦形成されると、巨大活性化トークン表現は層間でほぼ不変のままであり、アテンションモジュールに渡される隠れ表現の多様性を低下させる。この制限に動機づけられ、我々は巨大活性化トークンの硬直性を低減するためのシンプルかつ効果的な手法を提案する。我々のアプローチは、指示追従や数学的推論を含む複数のタスクにおいて、学習不要設定とファインチューニング設定の両方でLLMの性能を一貫して向上させる。さらに、我々の手法がアテンションシンクの影響を選択的に弱めることでそれらを緩和し、隠れ状態レベルでのその起源を解明し、原理的な緩和戦略に新たな光を当てることを示す。
English
We investigate the origins of massive activations in large language models (LLMs) and identify a specific layer named the Massive Emergence Layer (ME Layer), that is consistently observed across model families, where massive activations first emerge and subsequently propagate to deeper layers through residual connections. We show that, within the ME Layer both the RMSNorm and the FFN parameters jointly contribute to the emergence of massive activations. Once formed, the massive activation token representation remains largely invariant across layers, reducing the diversity of hidden representations passed to the attention module. Motivated by this limitation, we propose a simple and effective method to reduce the rigidity of the massive activation token. Our approach consistently improves LLM performance across multiple tasks, including instruction following and math reasoning, in both training free and fine tuning settings. Moreover, we show that our method mitigates attention sinks by selectively weakening their influence, elucidating their origin at the hidden state level and shedding new light on principled mitigation strategies.