Ограничения нормализации в механизме внимания

Аннотация

В данной работе исследуются ограничения нормализации в механизмах внимания. Мы начинаем с теоретической основы, которая позволяет определить избирательную способность модели и геометрическое разделение, связанное с выбором токенов. Наш анализ включает явные границы расстояний и критерии разделения для векторов токенов при масштабировании с использованием функции softmax. В экспериментах с предобученной моделью GPT-2 мы эмпирически подтверждаем наши теоретические результаты и анализируем ключевые аспекты поведения механизма внимания. В частности, мы показываем, что по мере увеличения числа выбранных токенов способность модели различать информативные токены снижается, часто приближаясь к равномерному распределению выбора. Мы также демонстрируем, что чувствительность градиентов при нормализации softmax создает трудности в процессе обучения, особенно при низких значениях температуры. Эти результаты углубляют текущее понимание механизмов внимания, основанных на softmax, и подчеркивают необходимость разработки более устойчивых стратегий нормализации и выбора в будущих архитектурах внимания.

English

This paper investigates the limitations of the normalization in attention mechanisms. We begin with a theoretical framework that enables the identification of the model's selective ability and the geometric separation involved in token selection. Our analysis includes explicit bounds on distances and separation criteria for token vectors under softmax scaling. Through experiments with pre-trained GPT-2 model, we empirically validate our theoretical results and analyze key behaviors of the attention mechanism. Notably, we demonstrate that as the number of selected tokens increases, the model's ability to distinguish informative tokens declines, often converging toward a uniform selection pattern. We also show that gradient sensitivity under softmax normalization presents challenges during training, especially at low temperature settings. These findings advance current understanding of softmax-based attention mechanism and motivate the need for more robust normalization and selection strategies in future attention architectures.

Ограничения нормализации в механизме внимания

Limitations of Normalization in Attention Mechanism

Аннотация

Support