ChatPaper.aiChatPaper

拡散言語モデルにおけるアテンションシンク

Attention Sinks in Diffusion Language Models

October 17, 2025
著者: Maximo Eduardo Rulli, Simone Petruzzi, Edoardo Michielon, Fabrizio Silvestri, Simone Scardapane, Alessio Devoto
cs.AI

要旨

マスク拡散言語モデル(DLMs)は、従来の自己回帰モデル(ARMs)に代わる有望な手法として近年注目を集めている。DLMsは双方向アテンションを備えたトランスフォーマーエンコーダーを採用し、並列的なトークン生成を可能にしながらも高い性能を維持している。その効率性と有効性は広く研究されているものの、DLMsを支配する内部メカニズムは未だ十分に解明されていない。本研究では、DLMsのアテンションパターンに焦点を当て、特にこれまで様々なトランスフォーマーベースのアーキテクチャで観察されてきた「アテンションシンク」現象に着目した実証分析を行った。その結果、DLMsもアテンションシンクを示すが、その特性はARMsとは異なることが明らかになった。第一に、ARMsとは異なり、DLMsにおけるシンク位置は生成プロセスを通じて移動し、動的な振る舞いを示す。第二に、ARMsがアテンションシンクの除去に非常に敏感であるのに対し、DLMsは頑健であり、シンクをマスクしても性能の低下はわずかである。これらの結果は、拡散ベースの言語モデルの内部動作に関する新たな知見を提供し、自己回帰モデルと比較した際のアテンションの割り当てと利用方法における根本的な違いを浮き彫りにしている。
English
Masked Diffusion Language Models (DLMs) have recently emerged as a promising alternative to traditional Autoregressive Models (ARMs). DLMs employ transformer encoders with bidirectional attention, enabling parallel token generation while maintaining competitive performance. Although their efficiency and effectiveness have been extensively studied, the internal mechanisms that govern DLMs remain largely unexplored. In this work, we conduct an empirical analysis of DLM attention patterns, focusing on the attention sinking phenomenon, an effect previously observed in various transformer-based architectures. Our findings reveal that DLMs also exhibit attention sinks, but with distinct characteristics. First, unlike in ARMs, the sink positions in DLMs tend to shift throughout the generation process, displaying a dynamic behaviour. Second, while ARMs are highly sensitive to the removal of attention sinks, DLMs remain robust: masking sinks leads to only a minor degradation in performance. These results provide new insights into the inner workings of diffusion-based language models and highlight fundamental differences in how they allocate and utilize attention compared to autoregressive models.
PDF61October 23, 2025