Afundamentos de Atenção em Modelos de Linguagem de Difusão
Attention Sinks in Diffusion Language Models
October 17, 2025
Autores: Maximo Eduardo Rulli, Simone Petruzzi, Edoardo Michielon, Fabrizio Silvestri, Simone Scardapane, Alessio Devoto
cs.AI
Resumo
Modelos de Linguagem de Difusão Mascarada (DLMs, na sigla em inglês) surgiram recentemente como uma alternativa promissora aos tradicionais Modelos Autoregressivos (ARMs, na sigla em inglês). Os DLMs empregam codificadores baseados em transformers com atenção bidirecional, permitindo a geração paralela de tokens enquanto mantêm um desempenho competitivo. Embora sua eficiência e eficácia tenham sido amplamente estudadas, os mecanismos internos que governam os DLMs permanecem em grande parte inexplorados. Neste trabalho, realizamos uma análise empírica dos padrões de atenção dos DLMs, com foco no fenômeno de "afundamento de atenção" (attention sinking), um efeito previamente observado em várias arquiteturas baseadas em transformers. Nossos resultados revelam que os DLMs também exibem afundamentos de atenção, mas com características distintas. Primeiro, ao contrário dos ARMs, as posições de afundamento nos DLMs tendem a se deslocar ao longo do processo de geração, exibindo um comportamento dinâmico. Segundo, enquanto os ARMs são altamente sensíveis à remoção dos afundamentos de atenção, os DLMs permanecem robustos: mascarar os afundamentos resulta em apenas uma pequena degradação no desempenho. Esses resultados fornecem novos insights sobre o funcionamento interno dos modelos de linguagem baseados em difusão e destacam diferenças fundamentais em como eles alocam e utilizam a atenção em comparação com os modelos autoregressivos.
English
Masked Diffusion Language Models (DLMs) have recently emerged as a promising
alternative to traditional Autoregressive Models (ARMs). DLMs employ
transformer encoders with bidirectional attention, enabling parallel token
generation while maintaining competitive performance. Although their efficiency
and effectiveness have been extensively studied, the internal mechanisms that
govern DLMs remain largely unexplored. In this work, we conduct an empirical
analysis of DLM attention patterns, focusing on the attention sinking
phenomenon, an effect previously observed in various transformer-based
architectures. Our findings reveal that DLMs also exhibit attention sinks, but
with distinct characteristics. First, unlike in ARMs, the sink positions in
DLMs tend to shift throughout the generation process, displaying a dynamic
behaviour. Second, while ARMs are highly sensitive to the removal of attention
sinks, DLMs remain robust: masking sinks leads to only a minor degradation in
performance. These results provide new insights into the inner workings of
diffusion-based language models and highlight fundamental differences in how
they allocate and utilize attention compared to autoregressive models.