ChatPaper.aiChatPaper

Beperkingen van Normalisatie in het Aandachtsmechanisme

Limitations of Normalization in Attention Mechanism

August 25, 2025
Auteurs: Timur Mudarisov, Mikhail Burtsev, Tatiana Petrova, Radu State
cs.AI

Samenvatting

Dit artikel onderzoekt de beperkingen van normalisatie in aandachtmechanismen. We beginnen met een theoretisch kader dat het mogelijk maakt om het selectieve vermogen van het model en de geometrische scheiding bij tokenselectie te identificeren. Onze analyse omvat expliciete grenzen voor afstanden en scheidingscriteria voor tokenvectoren onder softmax-schaalvergroting. Door experimenten met het vooraf getrainde GPT-2-model valideren we onze theoretische resultaten empirisch en analyseren we belangrijke gedragingen van het aandachtmechanisme. Opmerkelijk is dat we aantonen dat naarmate het aantal geselecteerde tokens toeneemt, het vermogen van het model om informatieve tokens te onderscheiden afneemt, vaak convergerend naar een uniform selectiepatroon. We laten ook zien dat gevoeligheid voor gradiënten onder softmax-normalisatie uitdagingen oplevert tijdens het trainen, vooral bij lage temperatuurinstellingen. Deze bevindingen bevorderen het huidige begrip van softmax-gebaseerde aandachtmechanismen en motiveren de behoefte aan robuustere normalisatie- en selectiestrategieën in toekomstige aandachtarchitecturen.
English
This paper investigates the limitations of the normalization in attention mechanisms. We begin with a theoretical framework that enables the identification of the model's selective ability and the geometric separation involved in token selection. Our analysis includes explicit bounds on distances and separation criteria for token vectors under softmax scaling. Through experiments with pre-trained GPT-2 model, we empirically validate our theoretical results and analyze key behaviors of the attention mechanism. Notably, we demonstrate that as the number of selected tokens increases, the model's ability to distinguish informative tokens declines, often converging toward a uniform selection pattern. We also show that gradient sensitivity under softmax normalization presents challenges during training, especially at low temperature settings. These findings advance current understanding of softmax-based attention mechanism and motivate the need for more robust normalization and selection strategies in future attention architectures.
PDF75August 26, 2025