Деконструкция внимания: исследование принципов проектирования для эффективного языкового моделирования
Deconstructing Attention: Investigating Design Principles for Effective Language Modeling
October 13, 2025
Авторы: Huiyin Xue, Nafise Sadat Moosavi, Nikolaos Aletras
cs.AI
Аннотация
Успех языковых моделей на основе архитектуры Transformer широко связывают с их механизмом скалярного произведения внимания, который объединяет набор ключевых принципов проектирования: смешивание информации между позициями (обеспечивающее взаимодействие между несколькими токенами), активации, зависящие от последовательности (где веса внимания адаптируются к каждому входу), специфическая математическая форма (скалярные произведения с последующим взвешиванием через softmax) и связь запросов и ключей с изменяющимися скрытыми состояниями (привязка внимания к текущему слою). Однако необходимость каждого из этих принципов остается в значительной степени неисследованной. В данной работе мы систематически деконструируем механизм внимания, разрабатывая контролируемые варианты, которые выборочно ослабляют эти принципы, применяя их как равномерно ко всем слоям, так и в гибридных архитектурах, где только некоторые слои сохраняют стандартное внимание. Наш эмпирический анализ показывает, что механизмы смешивания токенов являются незаменимыми, так как их отсутствие приводит модели к почти случайному поведению, в то время как точная математическая форма и зависимость от последовательности могут быть существенно ослаблены, особенно если они сохраняются только в части слоев. Удивительно, что даже варианты, которые не работают изолированно, могут достигать устойчивой производительности при чередовании со стандартным вниманием, что подчеркивает эффект кооперации. Эти результаты углубляют наше понимание того, что действительно лежит в основе эффективности внимания, и открывают новые пути для упрощения языковых моделей без ущерба для их производительности.
English
The success of Transformer language models is widely credited to their
dot-product attention mechanism, which interweaves a set of key design
principles: mixing information across positions (enabling multi-token
interactions), sequence-dependent activations (where attention weights adapt to
each input), a specific mathematical form (dot-product similarities plus
softmax weighting), and coupling of queries and keys to evolving hidden states
(grounding attention in the current layer). However, the necessity of each of
these principles remains largely untested. In this work, we systematically
deconstruct attention by designing controlled variants that selectively relax
these principles, applied both uniformly across all layers and in hybrid
architectures where only some layers retain standard attention. Our empirical
analysis reveals that mechanisms for mixing tokens are indispensable, as their
absence collapses models to near-random behavior, while the exact mathematical
form and sequence dependency can be substantially relaxed, especially when
preserved in just a subset of layers. Surprisingly, even variants that fail in
isolation can achieve robust performance when interleaved with standard
attention, highlighting a cooperative effect. These findings deepen our
understanding of what truly underpins attention's effectiveness and open new
avenues for simplifying language models without sacrificing performance.