De Sterke Loterijbiljethypothese voor Multi-Head Attention Mechanismen
The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
November 6, 2025
Auteurs: Hikari Otsuka, Daiki Chijiwa, Yasuyuki Okoshi, Daichi Fujiki, Susumu Takeuchi, Masato Motomura
cs.AI
Samenvatting
De sterke loterijbiljet-hypothese (SLTH) veronderstelt dat hoogpresterende
subnetwerken, genaamd sterke loterijbiljetten (SLT's), verborgen zitten in
willekeurig geïnitialiseerde neurale netwerken. Hoewel recente theoretische
studies de SLTH voor diverse neurale architecturen hebben aangetoond, ontbreekt
het nog aan een theoretisch begrip van de SLTH voor transformer-architecturen.
In het bijzonder houdt de huidige theorie van de SLTH nog geen rekening met het
multi-head attention-mechanisme (MHA), een kernonderdeel van transformers. Om
dit hiaat te adresseren, introduceren wij een theoretische analyse van het
bestaan van SLT's binnen MHA's. Wij bewijzen dat, als een willekeurig
geïnitialiseerde MHA van H heads en invoerdimensie d een verborgen dimensie
van O(dlog(Hd^{3/2})) heeft voor de key en value, deze met hoge waarschijnlijkheid
een SLT bevat die een willekeurige MHA met dezelfde invoerdimensie benadert.
Voorts breiden wij, door gebruik te maken van deze theorie voor MHA's, de SLTH
uit naar transformers zonder normalisatielagen. Wij valideren onze theoretische
bevindingen empirisch en tonen aan dat de benaderingsfout tussen de SLT binnen
een bronsmodel (MHA en transformer) en een benaderd doelmodel exponentieel
afneemt door de verborgen dimensie van het bronsmodel te vergroten.
English
The strong lottery ticket hypothesis (SLTH) conjectures that high-performing
subnetworks, called strong lottery tickets (SLTs), are hidden in randomly
initialized neural networks. Although recent theoretical studies have
established the SLTH across various neural architectures, the SLTH for
transformer architectures still lacks theoretical understanding. In particular,
the current theory of the SLTH does not yet account for the multi-head
attention (MHA) mechanism, a core component of transformers. To address this
gap, we introduce a theoretical analysis of the existence of SLTs within MHAs.
We prove that, if a randomly initialized MHA of H heads and input dimension
d has the hidden dimension O(dlog(Hd^{3/2})) for the key and value, it
contains an SLT that approximates an arbitrary MHA with the same input
dimension with high probability. Furthermore, by leveraging this theory for
MHAs, we extend the SLTH to transformers without normalization layers. We
empirically validate our theoretical findings, demonstrating that the
approximation error between the SLT within a source model (MHA and transformer)
and an approximate target counterpart decreases exponentially by increasing the
hidden dimension of the source model.