Aufmerksamkeitssenken in Diffusionssprachmodellen
Attention Sinks in Diffusion Language Models
October 17, 2025
papers.authors: Maximo Eduardo Rulli, Simone Petruzzi, Edoardo Michielon, Fabrizio Silvestri, Simone Scardapane, Alessio Devoto
cs.AI
papers.abstract
Masked Diffusion Language Models (DLMs) haben sich kürzlich als vielversprechende Alternative zu traditionellen Autoregressive Models (ARMs) etabliert. DLMs nutzen Transformer-Encoder mit bidirektionaler Aufmerksamkeit, was eine parallele Token-Generierung ermöglicht, während sie gleichzeitig eine wettbewerbsfähige Leistung aufrechterhalten. Obwohl ihre Effizienz und Wirksamkeit bereits umfassend untersucht wurden, sind die internen Mechanismen, die DLMs steuern, weitgehend unerforscht. In dieser Arbeit führen wir eine empirische Analyse der Aufmerksamkeitsmuster von DLMs durch, wobei wir uns auf das Phänomen des Attention Sinking konzentrieren, einen Effekt, der bereits in verschiedenen Transformer-basierten Architekturen beobachtet wurde. Unsere Ergebnisse zeigen, dass DLMs ebenfalls Attention Sinks aufweisen, jedoch mit besonderen Merkmalen. Erstens neigen die Sink-Positionen in DLMs im Gegensatz zu ARMs dazu, sich während des Generierungsprozesses zu verschieben, was ein dynamisches Verhalten zeigt. Zweitens bleiben DLMs robust gegenüber der Entfernung von Attention Sinks, während ARMs stark empfindlich darauf reagieren: Das Maskieren von Sinks führt nur zu einer geringfügigen Verschlechterung der Leistung. Diese Ergebnisse bieten neue Einblicke in die Funktionsweise von Diffusions-basierten Sprachmodellen und verdeutlichen grundlegende Unterschiede in der Art und Weise, wie sie Aufmerksamkeit zuweisen und nutzen, im Vergleich zu autoregressiven Modellen.
English
Masked Diffusion Language Models (DLMs) have recently emerged as a promising
alternative to traditional Autoregressive Models (ARMs). DLMs employ
transformer encoders with bidirectional attention, enabling parallel token
generation while maintaining competitive performance. Although their efficiency
and effectiveness have been extensively studied, the internal mechanisms that
govern DLMs remain largely unexplored. In this work, we conduct an empirical
analysis of DLM attention patterns, focusing on the attention sinking
phenomenon, an effect previously observed in various transformer-based
architectures. Our findings reveal that DLMs also exhibit attention sinks, but
with distinct characteristics. First, unlike in ARMs, the sink positions in
DLMs tend to shift throughout the generation process, displaying a dynamic
behaviour. Second, while ARMs are highly sensitive to the removal of attention
sinks, DLMs remain robust: masking sinks leads to only a minor degradation in
performance. These results provide new insights into the inner workings of
diffusion-based language models and highlight fundamental differences in how
they allocate and utilize attention compared to autoregressive models.