다중 헤드 주의 메커니즘에 대한 강력한 로또 가설
The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
November 6, 2025
저자: Hikari Otsuka, Daiki Chijiwa, Yasuyuki Okoshi, Daichi Fujiki, Susumu Takeuchi, Masato Motomura
cs.AI
초록
강력한 복권 추첨 가설(SLTH)은 무작위로 초기화된 신경망 내에 강력한 복권 추첨 티켓(SLT)이라 불리는 고성능 서브네트워크가 숨겨져 있다고 추측합니다. 최근 이론 연구들을 통해 다양한 신경망 구조에서 SLTH가 입증되었으나, 트랜스포머 구조에 대한 SLTH는 아직 이론적 이해가 부족한 상황입니다. 특히, 현재의 SLTH 이론은 트랜스포머의 핵심 구성 요소인 다중 헤드 어텐션(MHA) 메커니즘을 아직 설명하지 못하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 MHA 내에 SLT가 존재한다는 것에 대한 이론적 분석을 소개합니다. 우리는 H개의 헤드와 입력 차원 d를 가진 무작위 초기화 MHA의 키와 값에 대한 은닉 차원이 O(dlog(Hd^{3/2}))일 경우, 해당 MHA가 높은 확률로 동일한 입력 차원을 가진 임의의 MHA를 근사하는 SLT를 포함함을 증명합니다. 나아가, MHA에 대한 이 이론을 활용하여 우리는 정규화 계층이 없는 트랜스포머로 SLTH를 확장합니다. 우리는 소스 모델(MHA 및 트랜스포머) 내 SLT와 근사적인 타겟 모델 사이의 근사 오차가 소스 모델의 은닉 차원을 증가시킴에 따라 기하급수적으로 감소한다는 것을 보여주며 우리의 이론적 결과를 실증적으로 검증합니다.
English
The strong lottery ticket hypothesis (SLTH) conjectures that high-performing
subnetworks, called strong lottery tickets (SLTs), are hidden in randomly
initialized neural networks. Although recent theoretical studies have
established the SLTH across various neural architectures, the SLTH for
transformer architectures still lacks theoretical understanding. In particular,
the current theory of the SLTH does not yet account for the multi-head
attention (MHA) mechanism, a core component of transformers. To address this
gap, we introduce a theoretical analysis of the existence of SLTs within MHAs.
We prove that, if a randomly initialized MHA of H heads and input dimension
d has the hidden dimension O(dlog(Hd^{3/2})) for the key and value, it
contains an SLT that approximates an arbitrary MHA with the same input
dimension with high probability. Furthermore, by leveraging this theory for
MHAs, we extend the SLTH to transformers without normalization layers. We
empirically validate our theoretical findings, demonstrating that the
approximation error between the SLT within a source model (MHA and transformer)
and an approximate target counterpart decreases exponentially by increasing the
hidden dimension of the source model.