Points d'attention dans les modèles de langage à diffusion
Attention Sinks in Diffusion Language Models
October 17, 2025
papers.authors: Maximo Eduardo Rulli, Simone Petruzzi, Edoardo Michielon, Fabrizio Silvestri, Simone Scardapane, Alessio Devoto
cs.AI
papers.abstract
Les modèles de langage à diffusion masquée (DLMs, pour *Masked Diffusion Language Models*) ont récemment émergé comme une alternative prometteuse aux modèles autorégressifs traditionnels (ARMs, pour *Autoregressive Models*). Les DLMs utilisent des encodeurs de type *transformer* avec une attention bidirectionnelle, permettant une génération parallèle de tokens tout en maintenant des performances compétitives. Bien que leur efficacité et leur efficience aient été largement étudiées, les mécanismes internes qui régissent les DLMs restent en grande partie inexplorés. Dans ce travail, nous menons une analyse empirique des schémas d'attention des DLMs, en nous concentrant sur le phénomène d'*attention sinking*, un effet précédemment observé dans diverses architectures basées sur les *transformers*. Nos résultats révèlent que les DLMs présentent également des *attention sinks*, mais avec des caractéristiques distinctes. Premièrement, contrairement aux ARMs, les positions des *sinks* dans les DLMs ont tendance à se déplacer tout au long du processus de génération, affichant un comportement dynamique. Deuxièmement, alors que les ARMs sont très sensibles à la suppression des *attention sinks*, les DLMs restent robustes : le masquage des *sinks* entraîne seulement une légère dégradation des performances. Ces résultats apportent de nouvelles perspectives sur le fonctionnement interne des modèles de langage basés sur la diffusion et mettent en lumière des différences fondamentales dans la manière dont ils allouent et utilisent l'attention par rapport aux modèles autorégressifs.
English
Masked Diffusion Language Models (DLMs) have recently emerged as a promising
alternative to traditional Autoregressive Models (ARMs). DLMs employ
transformer encoders with bidirectional attention, enabling parallel token
generation while maintaining competitive performance. Although their efficiency
and effectiveness have been extensively studied, the internal mechanisms that
govern DLMs remain largely unexplored. In this work, we conduct an empirical
analysis of DLM attention patterns, focusing on the attention sinking
phenomenon, an effect previously observed in various transformer-based
architectures. Our findings reveal that DLMs also exhibit attention sinks, but
with distinct characteristics. First, unlike in ARMs, the sink positions in
DLMs tend to shift throughout the generation process, displaying a dynamic
behaviour. Second, while ARMs are highly sensitive to the removal of attention
sinks, DLMs remain robust: masking sinks leads to only a minor degradation in
performance. These results provide new insights into the inner workings of
diffusion-based language models and highlight fundamental differences in how
they allocate and utilize attention compared to autoregressive models.