Внимание как поглотитель в трансформаторах: обзор использования, интерпретации и методов смягчения
Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation
April 11, 2026
Авторы: Zunhai Su, Hengyuan Zhang, Wei Wu, Yifan Zhang, Yaxiu Liu, He Xiao, Qingyao Yang, Yuxuan Sun, Rui Yang, Chao Zhang, Keyu Fan, Weihao Ye, Jing Xiong, Hui Shen, Chaofan Tao, Taiqiang Wu, Zhongwei Wan, Yulei Qian, Yuchen Xie, Ngai Wong
cs.AI
Аннотация
Как базовая архитектура современного машинного обучения, трансформеры обеспечили значительный прогресс в различных областях искусственного интеллекта. Несмотря на их преобразующее влияние, общей проблемой для различных архитектур трансформеров остается феномен "стоков внимания" (Attention Sink, AS), при котором непропорционально большой объем внимания фокусируется на небольшом подмножестве конкретных, но неинформативных токенов. AS усложняет интерпретируемость моделей, существенно влияет на динамику обучения и логического вывода, а также усугубляет такие проблемы, как галлюцинации. В последние годы значительные исследовательские усилия были направлены на понимание и использование AS. Однако до сих пор отсутствует комплексный обзор, который бы систематически консолидировал исследования, связанные с AS, и предложил руководство для будущих достижений. Чтобы восполнить этот пробел, мы представляем первый обзор по AS, структурированный вокруг трех ключевых измерений, определяющих текущий ландшафт исследований: фундаментальное использование, механистическая интерпретация и стратегии смягчения. Наша работа вносит ключевой вклад, проясняя основные концепции и проводя исследователей через эволюцию и тренды данной области. Мы рассматриваем этот обзор как авторитетный ресурс, позволяющий исследователям и практикам эффективно управлять AS в рамках текущей парадигмы трансформеров, одновременно вдохновляя на инновационные достижения для следующего поколения этих архитектур. Список статей, рассмотренных в данной работе, доступен по адресу https://github.com/ZunhaiSu/Awesome-Attention-Sink.
English
As the foundational architecture of modern machine learning, Transformers have driven remarkable progress across diverse AI domains. Despite their transformative impact, a persistent challenge across various Transformers is Attention Sink (AS), in which a disproportionate amount of attention is focused on a small subset of specific yet uninformative tokens. AS complicates interpretability, significantly affecting the training and inference dynamics, and exacerbates issues such as hallucinations. In recent years, substantial research has been dedicated to understanding and harnessing AS. However, a comprehensive survey that systematically consolidates AS-related research and offers guidance for future advancements remains lacking. To address this gap, we present the first survey on AS, structured around three key dimensions that define the current research landscape: Fundamental Utilization, Mechanistic Interpretation, and Strategic Mitigation. Our work provides a pivotal contribution by clarifying key concepts and guiding researchers through the evolution and trends of the field. We envision this survey as a definitive resource, empowering researchers and practitioners to effectively manage AS within the current Transformer paradigm, while simultaneously inspiring innovative advancements for the next generation of Transformers. The paper list of this work is available at https://github.com/ZunhaiSu/Awesome-Attention-Sink.