Points d'attention dans les modèles de langage à diffusion

papers.abstract

Les modèles de langage à diffusion masquée (DLMs, pour *Masked Diffusion Language Models*) ont récemment émergé comme une alternative prometteuse aux modèles autorégressifs traditionnels (ARMs, pour *Autoregressive Models*). Les DLMs utilisent des encodeurs de type *transformer* avec une attention bidirectionnelle, permettant une génération parallèle de tokens tout en maintenant des performances compétitives. Bien que leur efficacité et leur efficience aient été largement étudiées, les mécanismes internes qui régissent les DLMs restent en grande partie inexplorés. Dans ce travail, nous menons une analyse empirique des schémas d'attention des DLMs, en nous concentrant sur le phénomène d'*attention sinking*, un effet précédemment observé dans diverses architectures basées sur les *transformers*. Nos résultats révèlent que les DLMs présentent également des *attention sinks*, mais avec des caractéristiques distinctes. Premièrement, contrairement aux ARMs, les positions des *sinks* dans les DLMs ont tendance à se déplacer tout au long du processus de génération, affichant un comportement dynamique. Deuxièmement, alors que les ARMs sont très sensibles à la suppression des *attention sinks*, les DLMs restent robustes : le masquage des *sinks* entraîne seulement une légère dégradation des performances. Ces résultats apportent de nouvelles perspectives sur le fonctionnement interne des modèles de langage basés sur la diffusion et mettent en lumière des différences fondamentales dans la manière dont ils allouent et utilisent l'attention par rapport aux modèles autorégressifs.

English

Masked Diffusion Language Models (DLMs) have recently emerged as a promising alternative to traditional Autoregressive Models (ARMs). DLMs employ transformer encoders with bidirectional attention, enabling parallel token generation while maintaining competitive performance. Although their efficiency and effectiveness have been extensively studied, the internal mechanisms that govern DLMs remain largely unexplored. In this work, we conduct an empirical analysis of DLM attention patterns, focusing on the attention sinking phenomenon, an effect previously observed in various transformer-based architectures. Our findings reveal that DLMs also exhibit attention sinks, but with distinct characteristics. First, unlike in ARMs, the sink positions in DLMs tend to shift throughout the generation process, displaying a dynamic behaviour. Second, while ARMs are highly sensitive to the removal of attention sinks, DLMs remain robust: masking sinks leads to only a minor degradation in performance. These results provide new insights into the inner workings of diffusion-based language models and highlight fundamental differences in how they allocate and utilize attention compared to autoregressive models.

Points d'attention dans les modèles de langage à diffusion

Attention Sinks in Diffusion Language Models

papers.abstract

Support