어텐션 메커니즘에서 정규화의 한계
Limitations of Normalization in Attention Mechanism
August 25, 2025
저자: Timur Mudarisov, Mikhail Burtsev, Tatiana Petrova, Radu State
cs.AI
초록
본 논문은 어텐션 메커니즘에서 정규화의 한계를 탐구한다. 우리는 모델의 선택 능력과 토큰 선택에 관여하는 기하학적 분리를 식별할 수 있는 이론적 프레임워크로 시작한다. 우리의 분석은 소프트맥스 스케일링 하에서 토큰 벡터 간 거리와 분리 기준에 대한 명시적 경계를 포함한다. 사전 학습된 GPT-2 모델을 이용한 실험을 통해, 우리는 이론적 결과를 실증적으로 검증하고 어텐션 메커니즘의 주요 동작을 분석한다. 특히, 선택된 토큰의 수가 증가함에 따라 모델이 정보성 있는 토큰을 구별하는 능력이 감소하며, 종종 균일한 선택 패턴으로 수렴함을 보여준다. 또한, 소프트맥스 정규화 하에서의 그래디언트 민감도가 훈련 중에 특히 낮은 온도 설정에서 문제를 야기함을 보인다. 이러한 발견들은 소프트맥스 기반 어텐션 메커니즘에 대한 현재의 이해를 발전시키고, 향후 어텐션 아키텍처에서 더 강력한 정규화 및 선택 전략의 필요성을 제기한다.
English
This paper investigates the limitations of the normalization in attention
mechanisms. We begin with a theoretical framework that enables the
identification of the model's selective ability and the geometric separation
involved in token selection. Our analysis includes explicit bounds on distances
and separation criteria for token vectors under softmax scaling. Through
experiments with pre-trained GPT-2 model, we empirically validate our
theoretical results and analyze key behaviors of the attention mechanism.
Notably, we demonstrate that as the number of selected tokens increases, the
model's ability to distinguish informative tokens declines, often converging
toward a uniform selection pattern. We also show that gradient sensitivity
under softmax normalization presents challenges during training, especially at
low temperature settings. These findings advance current understanding of
softmax-based attention mechanism and motivate the need for more robust
normalization and selection strategies in future attention architectures.