大規模言語モデルにおける大規模活性化の精緻な分析
A Refined Analysis of Massive Activations in LLMs
March 28, 2025
著者: Louis Owen, Nilabhra Roy Chowdhury, Abhay Kumar, Fabian Güra
cs.AI
要旨
低精度トレーニングや量子化との関連性に動機づけられ、大規模言語モデル(LLM)における大規模な活性化が最近注目を集めています。しかし、既存の分析は範囲が限られており、アーキテクチャ間での一般化可能性は不明確です。本論文は、GLUベースおよび非GLUベースのアーキテクチャを含む幅広いLLMにおける大規模な活性化の分析を行うことで、これらのギャップの一部を埋めることに貢献します。我々の調査結果は、いくつかの従来の仮定に挑戦するものであり、最も重要な点は以下の通りです:(1)すべての大規模な活性化が有害であるわけではなく、それらを抑制してもパープレキシティの爆発や下流タスクの性能の崩壊を引き起こさないこと、(2)Attention KVバイアスなどの提案された緩和策はモデル固有であり、特定の場合には効果的でないこと。その結果、我々は新しいハイブリッド緩和策を調査しました。特に、Target Variance Rescaling(TVR)をAttention KVバイアスまたはDynamic Tanh(DyT)と組み合わせることで、調査したシナリオにおいて、大規模な活性化の緩和と下流モデルの性能の維持をうまくバランスさせることができました。我々のコードは以下で公開されています:https://github.com/bluorion-com/refine_massive_activations。
English
Motivated in part by their relevance for low-precision training and
quantization, massive activations in large language models (LLMs) have recently
emerged as a topic of interest. However, existing analyses are limited in
scope, and generalizability across architectures is unclear. This paper helps
address some of these gaps by conducting an analysis of massive activations
across a broad range of LLMs, including both GLU-based and non-GLU-based
architectures. Our findings challenge several prior assumptions, most
importantly: (1) not all massive activations are detrimental, i.e. suppressing
them does not lead to an explosion of perplexity or a collapse in downstream
task performance; (2) proposed mitigation strategies such as Attention KV bias
are model-specific and ineffective in certain cases. We consequently
investigate novel hybrid mitigation strategies; in particular pairing Target
Variance Rescaling (TVR) with Attention KV bias or Dynamic Tanh (DyT)
successfully balances the mitigation of massive activations with preserved
downstream model performance in the scenarios we investigated. Our code is
available at: https://github.com/bluorion-com/refine_massive_activations.Summary
AI-Generated Summary