Beperkingen van Normalisatie in het Aandachtsmechanisme
Limitations of Normalization in Attention Mechanism
August 25, 2025
Auteurs: Timur Mudarisov, Mikhail Burtsev, Tatiana Petrova, Radu State
cs.AI
Samenvatting
Dit artikel onderzoekt de beperkingen van normalisatie in aandachtmechanismen. We beginnen met een theoretisch kader dat het mogelijk maakt om het selectieve vermogen van het model en de geometrische scheiding bij tokenselectie te identificeren. Onze analyse omvat expliciete grenzen voor afstanden en scheidingscriteria voor tokenvectoren onder softmax-schaalvergroting. Door experimenten met het vooraf getrainde GPT-2-model valideren we onze theoretische resultaten empirisch en analyseren we belangrijke gedragingen van het aandachtmechanisme. Opmerkelijk is dat we aantonen dat naarmate het aantal geselecteerde tokens toeneemt, het vermogen van het model om informatieve tokens te onderscheiden afneemt, vaak convergerend naar een uniform selectiepatroon. We laten ook zien dat gevoeligheid voor gradiënten onder softmax-normalisatie uitdagingen oplevert tijdens het trainen, vooral bij lage temperatuurinstellingen. Deze bevindingen bevorderen het huidige begrip van softmax-gebaseerde aandachtmechanismen en motiveren de behoefte aan robuustere normalisatie- en selectiestrategieën in toekomstige aandachtarchitecturen.
English
This paper investigates the limitations of the normalization in attention
mechanisms. We begin with a theoretical framework that enables the
identification of the model's selective ability and the geometric separation
involved in token selection. Our analysis includes explicit bounds on distances
and separation criteria for token vectors under softmax scaling. Through
experiments with pre-trained GPT-2 model, we empirically validate our
theoretical results and analyze key behaviors of the attention mechanism.
Notably, we demonstrate that as the number of selected tokens increases, the
model's ability to distinguish informative tokens declines, often converging
toward a uniform selection pattern. We also show that gradient sensitivity
under softmax normalization presents challenges during training, especially at
low temperature settings. These findings advance current understanding of
softmax-based attention mechanism and motivate the need for more robust
normalization and selection strategies in future attention architectures.