Die starke Los-Ticket-Hypothese für Multi-Head-Aufmerksamkeitsmechanismen
The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
November 6, 2025
papers.authors: Hikari Otsuka, Daiki Chijiwa, Yasuyuki Okoshi, Daichi Fujiki, Susumu Takeuchi, Masato Motomura
cs.AI
papers.abstract
Die starke Losziehungshypothese (SLTH) postuliert, dass in zufällig initialisierten neuronalen Netzen hochperformante Teilnetzwerke, sogenannte starke Losziehungslose (SLTs), verborgen sind. Obwohl neuere theoretische Studien die SLTH für verschiedene neuronale Architekturen nachgewiesen haben, fehlt es bislang an einem theoretischen Verständnis der SLTH für Transformer-Architekturen. Insbesondere berücksichtigt die aktuelle Theorie der SLTH noch nicht den Multi-Head-Attention-Mechanismus (MHA), eine Kernkomponente von Transforms. Um diese Lücke zu schließen, führen wir eine theoretische Analyse der Existenz von SLTs in MHAs durch. Wir beweisen, dass ein zufällig initialisierter MHA mit H Köpfen und Eingabedimension d mit hoher Wahrscheinlichkeit ein SLT enthält, das einen beliebigen MHA mit derselben Eingabedimension approximiert, sofern die versteckte Dimension für Key und Value O(dlog(Hd^{3/2})) beträgt. Darüber hinaus erweitern wir durch die Nutzung dieser Theorie für MHAs die SLTH auf Transforms ohne Normalisierungsschichten. Wir validieren unsere theoretischen Erkenntnisse empirisch und zeigen, dass der Approximationsfehler zwischen dem SLT innerhalb eines Quellmodells (MHA und Transformer) und einem approximativen Zielmodell exponentiell abnimmt, wenn die versteckte Dimension des Quellmodells erhöht wird.
English
The strong lottery ticket hypothesis (SLTH) conjectures that high-performing
subnetworks, called strong lottery tickets (SLTs), are hidden in randomly
initialized neural networks. Although recent theoretical studies have
established the SLTH across various neural architectures, the SLTH for
transformer architectures still lacks theoretical understanding. In particular,
the current theory of the SLTH does not yet account for the multi-head
attention (MHA) mechanism, a core component of transformers. To address this
gap, we introduce a theoretical analysis of the existence of SLTs within MHAs.
We prove that, if a randomly initialized MHA of H heads and input dimension
d has the hidden dimension O(dlog(Hd^{3/2})) for the key and value, it
contains an SLT that approximates an arbitrary MHA with the same input
dimension with high probability. Furthermore, by leveraging this theory for
MHAs, we extend the SLTH to transformers without normalization layers. We
empirically validate our theoretical findings, demonstrating that the
approximation error between the SLT within a source model (MHA and transformer)
and an approximate target counterpart decreases exponentially by increasing the
hidden dimension of the source model.