ChatPaper.aiChatPaper

트랜스포머의 어텐션 싱크: 활용, 해석 및 완화에 관한 연구 동향

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

April 11, 2026
저자: Zunhai Su, Hengyuan Zhang, Wei Wu, Yifan Zhang, Yaxiu Liu, He Xiao, Qingyao Yang, Yuxuan Sun, Rui Yang, Chao Zhang, Keyu Fan, Weihao Ye, Jing Xiong, Hui Shen, Chaofan Tao, Taiqiang Wu, Zhongwei Wan, Yulei Qian, Yuchen Xie, Ngai Wong
cs.AI

초록

현대 머신러닝의 기반 아키텍처인 트랜스포머는 다양한 AI 분야에서 놀라운 발전을 이끌어왔습니다. 그러나 이러한 변혁적 영향력에도 불구하고, 다양한 트랜스포머 모델에 걸쳐 지속적으로 제기되는 문제가 바로 어텐션 싱크(AS)입니다. AS는 특정하지만 정보성이 낮은 토큰들의 소수 집단에 과도한 양의 어텐션이 집중되는 현상을 말합니다. AS는 해석 가능성을 복잡하게 만들고, 훈련 및 추론 동역학에 심각한 영향을 미치며, 환각과 같은 문제를 악화시킵니다. 최근 몇 년간 AS를 이해하고 활용하기 위한 상당한 연구가 진행되어 왔습니다. 그러나 AS 관련 연구를 체계적으로 통합하고 향후 발전 방향에 대한 지침을 제공하는 포괄적인 조사 연구는 아직 부재한 실정입니다. 이러한 공백을 해소하기 위해, 본 논문은 AS에 관한 최초의 조사 연구를 소개합니다. 이 연구는 현재 연구 동향을 정의하는 세 가지 핵심 차원, 즉 기본적 활용, 메커니즘적 해석, 전략적 완화를 중심으로 구성되었습니다. 본 연구는 핵심 개념을 명확히 하고 해당 분야의 진화와 트렌드를 연구자들이 따라갈 수 있도록 안내함으로써 중추적인 기여를 합니다. 우리는 이 조사 연구가 연구자와 실무자들이 현재의 트랜스포머 패러다임 내에서 AS를 효과적으로 관리하는 동시에 다음 세대 트랜스포머를 위한 혁신적인 발전을 고무하는 결정적 자료가 될 것으로 기대합니다. 본 작업의 논문 목록은 https://github.com/ZunhaiSu/Awesome-Attention-Sink에서 확인할 수 있습니다.
English
As the foundational architecture of modern machine learning, Transformers have driven remarkable progress across diverse AI domains. Despite their transformative impact, a persistent challenge across various Transformers is Attention Sink (AS), in which a disproportionate amount of attention is focused on a small subset of specific yet uninformative tokens. AS complicates interpretability, significantly affecting the training and inference dynamics, and exacerbates issues such as hallucinations. In recent years, substantial research has been dedicated to understanding and harnessing AS. However, a comprehensive survey that systematically consolidates AS-related research and offers guidance for future advancements remains lacking. To address this gap, we present the first survey on AS, structured around three key dimensions that define the current research landscape: Fundamental Utilization, Mechanistic Interpretation, and Strategic Mitigation. Our work provides a pivotal contribution by clarifying key concepts and guiding researchers through the evolution and trends of the field. We envision this survey as a definitive resource, empowering researchers and practitioners to effectively manage AS within the current Transformer paradigm, while simultaneously inspiring innovative advancements for the next generation of Transformers. The paper list of this work is available at https://github.com/ZunhaiSu/Awesome-Attention-Sink.
PDF552April 15, 2026