Гипотеза сильного лотерейного билета для механизмов многоголового внимания
The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
November 6, 2025
Авторы: Hikari Otsuka, Daiki Chijiwa, Yasuyuki Okoshi, Daichi Fujiki, Susumu Takeuchi, Masato Motomura
cs.AI
Аннотация
Гипотеза сильных лотерейных билетов (Strong Lottery Ticket Hypothesis, SLTH) предполагает, что в случайно инициализированных нейронных сетях существуют высокопроизводительные подсети, называемые сильными лотерейными билетами (Strong Lottery Tickets, SLT). Хотя последние теоретические исследования подтвердили справедливость SLTH для различных нейронных архитектур, теоретическое обоснование SLTH для архитектур трансформеров до сих пор отсутствует. В частности, текущая теория SLTH еще не учитывает механизм многоголового внимания (Multi-Head Attention, MHA), который является ключевым компонентом трансформеров. Чтобы восполнить этот пробел, мы представляем теоретический анализ существования SLT внутри MHA. Мы доказываем, что если в случайно инициализированном MHA с H головами и входной размерностью d скрытая размерность для ключей и значений составляет O(dlog(Hd^{3/2})), то с высокой вероятностью он содержит SLT, аппроксимирующий произвольный MHA с той же входной размерностью. Более того, используя эту теорию для MHA, мы расширяем SLTH на трансформеры без слоев нормализации. Мы эмпирически подтверждаем наши теоретические выводы, демонстрируя, что ошибка аппроксимации между SLT внутри исходной модели (MHA и трансформер) и приближенной целевой моделью экспоненциально уменьшается с увеличением скрытой размерности исходной модели.
English
The strong lottery ticket hypothesis (SLTH) conjectures that high-performing
subnetworks, called strong lottery tickets (SLTs), are hidden in randomly
initialized neural networks. Although recent theoretical studies have
established the SLTH across various neural architectures, the SLTH for
transformer architectures still lacks theoretical understanding. In particular,
the current theory of the SLTH does not yet account for the multi-head
attention (MHA) mechanism, a core component of transformers. To address this
gap, we introduce a theoretical analysis of the existence of SLTs within MHAs.
We prove that, if a randomly initialized MHA of H heads and input dimension
d has the hidden dimension O(dlog(Hd^{3/2})) for the key and value, it
contains an SLT that approximates an arbitrary MHA with the same input
dimension with high probability. Furthermore, by leveraging this theory for
MHAs, we extend the SLTH to transformers without normalization layers. We
empirically validate our theoretical findings, demonstrating that the
approximation error between the SLT within a source model (MHA and transformer)
and an approximate target counterpart decreases exponentially by increasing the
hidden dimension of the source model.