A Hipótese do Bilhete de Loteria Forte para Mecanismos de Atenção Multi-Head
The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
November 6, 2025
Autores: Hikari Otsuka, Daiki Chijiwa, Yasuyuki Okoshi, Daichi Fujiki, Susumu Takeuchi, Masato Motomura
cs.AI
Resumo
A hipótese do bilhete de loteria forte (SLTH) conjectura que sub-redes de alto desempenho, denominadas bilhetes de loteria fortes (SLTs), estão ocultas em redes neurais inicializadas aleatoriamente. Embora estudos teóricos recentes tenham estabelecido a SLTH em várias arquiteturas neurais, a SLTH para arquiteturas de transformadores ainda carece de compreensão teórica. Em particular, a teoria atual da SLTH ainda não leva em conta o mecanismo de atenção de múltiplas cabeças (MHA), um componente central dos transformadores. Para preencher essa lacuna, introduzimos uma análise teórica da existência de SLTs dentro de MHAs. Provamos que, se um MHA inicializado aleatoriamente com H cabeças e dimensão de entrada d tiver a dimensão oculta O(dlog(Hd^{3/2})) para a chave e o valor, ele contém um SLT que aproxima um MHA arbitrário com a mesma dimensão de entrada com alta probabilidade. Além disso, ao aproveitar essa teoria para MHAs, estendemos a SLTH para transformadores sem camadas de normalização. Validamos empiricamente nossas descobertas teóricas, demonstrando que o erro de aproximação entre o SLT dentro de um modelo de origem (MHA e transformador) e uma contraparte alvo aproximada diminui exponencialmente ao aumentar a dimensão oculta do modelo de origem.
English
The strong lottery ticket hypothesis (SLTH) conjectures that high-performing
subnetworks, called strong lottery tickets (SLTs), are hidden in randomly
initialized neural networks. Although recent theoretical studies have
established the SLTH across various neural architectures, the SLTH for
transformer architectures still lacks theoretical understanding. In particular,
the current theory of the SLTH does not yet account for the multi-head
attention (MHA) mechanism, a core component of transformers. To address this
gap, we introduce a theoretical analysis of the existence of SLTs within MHAs.
We prove that, if a randomly initialized MHA of H heads and input dimension
d has the hidden dimension O(dlog(Hd^{3/2})) for the key and value, it
contains an SLT that approximates an arbitrary MHA with the same input
dimension with high probability. Furthermore, by leveraging this theory for
MHAs, we extend the SLTH to transformers without normalization layers. We
empirically validate our theoretical findings, demonstrating that the
approximation error between the SLT within a source model (MHA and transformer)
and an approximate target counterpart decreases exponentially by increasing the
hidden dimension of the source model.