확산 언어 모델에서의 주의력 싱크
Attention Sinks in Diffusion Language Models
October 17, 2025
저자: Maximo Eduardo Rulli, Simone Petruzzi, Edoardo Michielon, Fabrizio Silvestri, Simone Scardapane, Alessio Devoto
cs.AI
초록
마스크된 확산 언어 모델(Diffusion Language Models, DLMs)은 최근 전통적인 자기회귀 모델(Autoregressive Models, ARMs)의 유망한 대안으로 부상하고 있다. DLMs는 양방향 주의 메커니즘을 갖춘 트랜스포머 인코더를 사용하여 병렬 토큰 생성을 가능하게 하면서도 경쟁력 있는 성능을 유지한다. 그 효율성과 효과성은 광범위하게 연구되었지만, DLMs를 지배하는 내부 메커니즘은 여전히 크게 탐구되지 않았다. 본 연구에서는 DLM의 주의 패턴에 대한 실증적 분석을 수행하며, 특히 다양한 트랜스포머 기반 아키텍처에서 이전에 관찰된 '주의 싱크(attention sinking)' 현상에 초점을 맞춘다. 우리의 연구 결과는 DLMs도 주의 싱크를 나타내지만, 독특한 특성을 보인다는 것을 밝혀냈다. 첫째, ARMs와 달리 DLMs의 싱크 위치는 생성 과정 전반에 걸쳐 이동하며 동적인 행동을 보인다. 둘째, ARMs가 주의 싱크 제거에 매우 민감한 반면, DLMs는 강건성을 유지한다: 싱크를 마스킹해도 성능 저하는 미미하다. 이러한 결과는 확산 기반 언어 모델의 내부 작동 방식에 대한 새로운 통찰을 제공하며, 자기회귀 모델과 비교하여 주의를 할당하고 활용하는 방식의 근본적인 차이를 강조한다.
English
Masked Diffusion Language Models (DLMs) have recently emerged as a promising
alternative to traditional Autoregressive Models (ARMs). DLMs employ
transformer encoders with bidirectional attention, enabling parallel token
generation while maintaining competitive performance. Although their efficiency
and effectiveness have been extensively studied, the internal mechanisms that
govern DLMs remain largely unexplored. In this work, we conduct an empirical
analysis of DLM attention patterns, focusing on the attention sinking
phenomenon, an effect previously observed in various transformer-based
architectures. Our findings reveal that DLMs also exhibit attention sinks, but
with distinct characteristics. First, unlike in ARMs, the sink positions in
DLMs tend to shift throughout the generation process, displaying a dynamic
behaviour. Second, while ARMs are highly sensitive to the removal of attention
sinks, DLMs remain robust: masking sinks leads to only a minor degradation in
performance. These results provide new insights into the inner workings of
diffusion-based language models and highlight fundamental differences in how
they allocate and utilize attention compared to autoregressive models.