Ограничения нормализации в механизме внимания
Limitations of Normalization in Attention Mechanism
August 25, 2025
Авторы: Timur Mudarisov, Mikhail Burtsev, Tatiana Petrova, Radu State
cs.AI
Аннотация
В данной работе исследуются ограничения нормализации в механизмах внимания. Мы начинаем с теоретической основы, которая позволяет определить избирательную способность модели и геометрическое разделение, связанное с выбором токенов. Наш анализ включает явные границы расстояний и критерии разделения для векторов токенов при масштабировании с использованием функции softmax. В экспериментах с предобученной моделью GPT-2 мы эмпирически подтверждаем наши теоретические результаты и анализируем ключевые аспекты поведения механизма внимания. В частности, мы показываем, что по мере увеличения числа выбранных токенов способность модели различать информативные токены снижается, часто приближаясь к равномерному распределению выбора. Мы также демонстрируем, что чувствительность градиентов при нормализации softmax создает трудности в процессе обучения, особенно при низких значениях температуры. Эти результаты углубляют текущее понимание механизмов внимания, основанных на softmax, и подчеркивают необходимость разработки более устойчивых стратегий нормализации и выбора в будущих архитектурах внимания.
English
This paper investigates the limitations of the normalization in attention
mechanisms. We begin with a theoretical framework that enables the
identification of the model's selective ability and the geometric separation
involved in token selection. Our analysis includes explicit bounds on distances
and separation criteria for token vectors under softmax scaling. Through
experiments with pre-trained GPT-2 model, we empirically validate our
theoretical results and analyze key behaviors of the attention mechanism.
Notably, we demonstrate that as the number of selected tokens increases, the
model's ability to distinguish informative tokens declines, often converging
toward a uniform selection pattern. We also show that gradient sensitivity
under softmax normalization presents challenges during training, especially at
low temperature settings. These findings advance current understanding of
softmax-based attention mechanism and motivate the need for more robust
normalization and selection strategies in future attention architectures.