ChatPaper.aiChatPaper

TransformerにおけるAttention Sink:活用、解釈、緩和策に関するサーベイ

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

April 11, 2026
著者: Zunhai Su, Hengyuan Zhang, Wei Wu, Yifan Zhang, Yaxiu Liu, He Xiao, Qingyao Yang, Yuxuan Sun, Rui Yang, Chao Zhang, Keyu Fan, Weihao Ye, Jing Xiong, Hui Shen, Chaofan Tao, Taiqiang Wu, Zhongwei Wan, Yulei Qian, Yuchen Xie, Ngai Wong
cs.AI

要旨

現代機械学習の基盤的アーキテクチャとして、Transformerは多様なAI領域で顕著な進展を牽引してきた。しかしその変革的影響にもかかわらず、様々なTransformerに共通する課題として「アテンションシンク(AS)」が存在する。これは不均衡な量の注意が、特定の非情報的トークンの小さな部分集合に集中する現象である。ASは解釈性を複雑化し、学習と推論のダイナミクスに重大な影響を与え、幻覚生成などの問題を悪化させる。近年、ASの理解と制御に向けた多大な研究努力が払われてきたが、AS関連研究を体系的に整理し将来の進展への指針を提供する包括的なサーベイは未だ不足している。この空白を埋めるため、我々はASに関する初のサーベイを提案する。本調査は現在の研究状況を定義する3つの主要軸——基礎的利用法、メカニズム解釈、戦的緩和——に沿って構成されている。我々の研究は、核心概念を明確化し、この分野の進化と趨勢を研究者に示すことで画期的な貢献を果たす。本サーベイが決定的なリソースとして、研究者や実務者が現在のTransformerパラダイム内でASを効果的に管理すると同時に、次世代Transformerの革新的進展を触発することを期待する。本論文の関連文献リストはhttps://github.com/ZunhaiSu/Awesome-Attention-Sinkで公開されている。
English
As the foundational architecture of modern machine learning, Transformers have driven remarkable progress across diverse AI domains. Despite their transformative impact, a persistent challenge across various Transformers is Attention Sink (AS), in which a disproportionate amount of attention is focused on a small subset of specific yet uninformative tokens. AS complicates interpretability, significantly affecting the training and inference dynamics, and exacerbates issues such as hallucinations. In recent years, substantial research has been dedicated to understanding and harnessing AS. However, a comprehensive survey that systematically consolidates AS-related research and offers guidance for future advancements remains lacking. To address this gap, we present the first survey on AS, structured around three key dimensions that define the current research landscape: Fundamental Utilization, Mechanistic Interpretation, and Strategic Mitigation. Our work provides a pivotal contribution by clarifying key concepts and guiding researchers through the evolution and trends of the field. We envision this survey as a definitive resource, empowering researchers and practitioners to effectively manage AS within the current Transformer paradigm, while simultaneously inspiring innovative advancements for the next generation of Transformers. The paper list of this work is available at https://github.com/ZunhaiSu/Awesome-Attention-Sink.
PDF552April 15, 2026