L'Ipotesi del Biglietto Vincente Forte per i Meccanismi di Attenzione Multi-Head
The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
November 6, 2025
Autori: Hikari Otsuka, Daiki Chijiwa, Yasuyuki Okoshi, Daichi Fujiki, Susumu Takeuchi, Masato Motomura
cs.AI
Abstract
L'ipotesi del biglietto della lotteria forte (SLTH) ipotizza che in reti neurali inizializzate casualmente siano presenti sottoreti ad alte prestazioni, denominate biglietti della lotteria forti (SLT). Sebbene studi teorici recenti abbiano stabilito la validità della SLTH per varie architetture neurali, la SLTH per le architetture di transformer manca ancora di una comprensione teorica. In particolare, l'attuale teoria della SLTH non tiene ancora conto del meccanismo di multi-head attention (MHA), un componente fondamentale dei transformer. Per colmare questa lacuna, introduciamo un'analisi teorica dell'esistenza di SLT all'interno dei MHA. Dimostriamo che, se un MHA inizializzato casualmente con H teste e dimensione di input d ha una dimensione nascosta O(dlog(Hd^{3/2})) per la chiave e il valore, esso contiene con alta probabilità uno SLT che approssima un MHA arbitrario con la stessa dimensione di input. Inoltre, sfruttando questa teoria per i MHA, estendiamo la SLTH a transformer senza layer di normalizzazione. Convalidiamo empiricamente i nostri risultati teorici, dimostrando che l'errore di approssimazione tra lo SLT all'interno di un modello sorgente (MHA e transformer) e una sua controparte target approssimata diminuisce esponenzialmente all'aumentare della dimensione nascosta del modello sorgente.
English
The strong lottery ticket hypothesis (SLTH) conjectures that high-performing
subnetworks, called strong lottery tickets (SLTs), are hidden in randomly
initialized neural networks. Although recent theoretical studies have
established the SLTH across various neural architectures, the SLTH for
transformer architectures still lacks theoretical understanding. In particular,
the current theory of the SLTH does not yet account for the multi-head
attention (MHA) mechanism, a core component of transformers. To address this
gap, we introduce a theoretical analysis of the existence of SLTs within MHAs.
We prove that, if a randomly initialized MHA of H heads and input dimension
d has the hidden dimension O(dlog(Hd^{3/2})) for the key and value, it
contains an SLT that approximates an arbitrary MHA with the same input
dimension with high probability. Furthermore, by leveraging this theory for
MHAs, we extend the SLTH to transformers without normalization layers. We
empirically validate our theoretical findings, demonstrating that the
approximation error between the SLT within a source model (MHA and transformer)
and an approximate target counterpart decreases exponentially by increasing the
hidden dimension of the source model.