ChatPaper.aiChatPaper

La Hipótesis del Boleto de Lotería Ganador para los Mecanismos de Atención Multi-Cabezal

The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms

November 6, 2025
Autores: Hikari Otsuka, Daiki Chijiwa, Yasuyuki Okoshi, Daichi Fujiki, Susumu Takeuchi, Masato Motomura
cs.AI

Resumen

La hipótesis del boleto de lotería fuerte (SLTH) conjetura que existen subredes de alto rendimiento, llamadas boletos de lotería fuertes (SLTs), ocultas en redes neuronales inicializadas aleatoriamente. Aunque estudios teóricos recientes han establecido la SLTH en diversas arquitecturas neuronales, la SLTH para arquitecturas de transformadores aún carece de comprensión teórica. En particular, la teoría actual de la SLTH aún no explica el mecanismo de atención multi-cabeza (MHA), un componente central de los transformadores. Para abordar esta brecha, presentamos un análisis teórico de la existencia de SLTs dentro de los MHAs. Demostramos que, si un MHA inicializado aleatoriamente con H cabezas y dimensión de entrada d tiene una dimensión oculta de O(dlog(Hd^{3/2})) para la clave y el valor, contiene un SLT que aproxima un MHA arbitrario con la misma dimensión de entrada con alta probabilidad. Además, al aprovechar esta teoría para los MHAs, extendemos la SLTH a transformadores sin capas de normalización. Validamos empíricamente nuestros hallazgos teóricos, demostrando que el error de aproximación entre el SLT dentro de un modelo fuente (MHA y transformador) y una contraparte objetivo aproximada disminuye exponencialmente al aumentar la dimensión oculta del modelo fuente.
English
The strong lottery ticket hypothesis (SLTH) conjectures that high-performing subnetworks, called strong lottery tickets (SLTs), are hidden in randomly initialized neural networks. Although recent theoretical studies have established the SLTH across various neural architectures, the SLTH for transformer architectures still lacks theoretical understanding. In particular, the current theory of the SLTH does not yet account for the multi-head attention (MHA) mechanism, a core component of transformers. To address this gap, we introduce a theoretical analysis of the existence of SLTs within MHAs. We prove that, if a randomly initialized MHA of H heads and input dimension d has the hidden dimension O(dlog(Hd^{3/2})) for the key and value, it contains an SLT that approximates an arbitrary MHA with the same input dimension with high probability. Furthermore, by leveraging this theory for MHAs, we extend the SLTH to transformers without normalization layers. We empirically validate our theoretical findings, demonstrating that the approximation error between the SLT within a source model (MHA and transformer) and an approximate target counterpart decreases exponentially by increasing the hidden dimension of the source model.
PDF154December 2, 2025