Afundamentos de Atenção em Modelos de Linguagem de Difusão

Resumo

Modelos de Linguagem de Difusão Mascarada (DLMs, na sigla em inglês) surgiram recentemente como uma alternativa promissora aos tradicionais Modelos Autoregressivos (ARMs, na sigla em inglês). Os DLMs empregam codificadores baseados em transformers com atenção bidirecional, permitindo a geração paralela de tokens enquanto mantêm um desempenho competitivo. Embora sua eficiência e eficácia tenham sido amplamente estudadas, os mecanismos internos que governam os DLMs permanecem em grande parte inexplorados. Neste trabalho, realizamos uma análise empírica dos padrões de atenção dos DLMs, com foco no fenômeno de "afundamento de atenção" (attention sinking), um efeito previamente observado em várias arquiteturas baseadas em transformers. Nossos resultados revelam que os DLMs também exibem afundamentos de atenção, mas com características distintas. Primeiro, ao contrário dos ARMs, as posições de afundamento nos DLMs tendem a se deslocar ao longo do processo de geração, exibindo um comportamento dinâmico. Segundo, enquanto os ARMs são altamente sensíveis à remoção dos afundamentos de atenção, os DLMs permanecem robustos: mascarar os afundamentos resulta em apenas uma pequena degradação no desempenho. Esses resultados fornecem novos insights sobre o funcionamento interno dos modelos de linguagem baseados em difusão e destacam diferenças fundamentais em como eles alocam e utilizam a atenção em comparação com os modelos autoregressivos.

English

Masked Diffusion Language Models (DLMs) have recently emerged as a promising alternative to traditional Autoregressive Models (ARMs). DLMs employ transformer encoders with bidirectional attention, enabling parallel token generation while maintaining competitive performance. Although their efficiency and effectiveness have been extensively studied, the internal mechanisms that govern DLMs remain largely unexplored. In this work, we conduct an empirical analysis of DLM attention patterns, focusing on the attention sinking phenomenon, an effect previously observed in various transformer-based architectures. Our findings reveal that DLMs also exhibit attention sinks, but with distinct characteristics. First, unlike in ARMs, the sink positions in DLMs tend to shift throughout the generation process, displaying a dynamic behaviour. Second, while ARMs are highly sensitive to the removal of attention sinks, DLMs remain robust: masking sinks leads to only a minor degradation in performance. These results provide new insights into the inner workings of diffusion-based language models and highlight fundamental differences in how they allocate and utilize attention compared to autoregressive models.

Afundamentos de Atenção em Modelos de Linguagem de Difusão

Attention Sinks in Diffusion Language Models

Resumo

Support