マルチヘッド注意機構における強力な宝くじ券仮説
The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
November 6, 2025
著者: Hikari Otsuka, Daiki Chijiwa, Yasuyuki Okoshi, Daichi Fujiki, Susumu Takeuchi, Masato Motomura
cs.AI
要旨
強力宝くじ仮説(SLTH)は、強力宝くじ(SLT)と呼ばれる高性能なサブネットワークが、ランダムに初期化されたニューラルネットワーク内に潜在していると推測する。近年の理論研究により様々なニューラルネットワーク構造でSLTHが確立されてきたが、トランスフォーマー構造におけるSLTHは理論的な理解が依然として不足している。特に、現在のSLTH理論は、トランスフォーマーの核心的構成要素であるマルチヘッドアテンション(MHA)機構をまだ説明できていない。この隔たりを埋めるため、我々はMHA内におけるSLTの存在に関する理論分析を導入する。H個のヘッドと入力次元dを持つランダム初期化MHAが、キーと値に対して隠れ次元O(dlog(Hd^{3/2}))を有する場合、高い確率で同じ入力次元を持つ任意のMHAを近似するSLTを含むことを証明する。さらに、MHAに対するこの理論を活用することで、正規化層を持たないトランスフォーマーへSLTHを拡張する。ソースモデル(MHA及びトランスフォーマー)内のSLTと近似対象モデルとの誤差が、ソースモデルの隠れ次元を増加させることで指数関数的に減少することを実証的に検証し、理論的知見を支持する。
English
The strong lottery ticket hypothesis (SLTH) conjectures that high-performing
subnetworks, called strong lottery tickets (SLTs), are hidden in randomly
initialized neural networks. Although recent theoretical studies have
established the SLTH across various neural architectures, the SLTH for
transformer architectures still lacks theoretical understanding. In particular,
the current theory of the SLTH does not yet account for the multi-head
attention (MHA) mechanism, a core component of transformers. To address this
gap, we introduce a theoretical analysis of the existence of SLTs within MHAs.
We prove that, if a randomly initialized MHA of H heads and input dimension
d has the hidden dimension O(dlog(Hd^{3/2})) for the key and value, it
contains an SLT that approximates an arbitrary MHA with the same input
dimension with high probability. Furthermore, by leveraging this theory for
MHAs, we extend the SLTH to transformers without normalization layers. We
empirically validate our theoretical findings, demonstrating that the
approximation error between the SLT within a source model (MHA and transformer)
and an approximate target counterpart decreases exponentially by increasing the
hidden dimension of the source model.