Máscaras Podem Ser Distrativas: Sobre a Compreensão de Contexto em Modelos de Linguagem de Difusão

Resumo

Os Modelos de Linguagem de Difusão Mascarada (MDLMs) surgiram recentemente como uma alternativa promissora aos Modelos de Linguagem Autorregressivos (ARLMs), aproveitando um objetivo de remoção de ruído que, em princípio, deveria permitir uma utilização de contexto mais uniforme. Neste trabalho, examinamos as capacidades de compreensão contextual dos MDLMs e descobrimos duas limitações principais. Primeiro, apesar do seu objetivo de treinamento mais global e do mecanismo de atenção bidirecional, de forma semelhante aos ARLMs, os MDLMs exibem um forte viés de localidade: o desempenho é altamente sensível à posição da informação relevante dentro da entrada, favorecendo o contexto local em detrimento do contexto distante. Segundo, mostramos que anexar um grande número de *tokens* de máscara – necessários para a geração – pode degradar significativamente a compreensão contextual. Por meio de ablações sistemáticas, descobrimos que essas máscaras atuam como elementos de distração, reduzindo a capacidade do modelo de processar informações relevantes. Para resolver isso, introduzimos uma função de perda agnóstica à máscara que incentiva as previsões a permanecerem invariantes em relação ao número de máscaras anexadas. O ajuste fino com este objetivo mitiga substancialmente o efeito de distração das máscaras, melhorando a robustez dos MDLMs. No geral, nossas descobertas revelam limitações críticas do paradigma atual de treinamento de MDLMs e fornecem insights acionáveis para a construção de modelos de linguagem baseados em difusão com uma compreensão contextual mais forte.

English

Masked Diffusion Language Models (MDLMs) have recently emerged as a promising alternative to Autoregressive Language Models (ARLMs), leveraging a denoising objective that, in principle, should enable more uniform context utilisation. In this work, we examine the context comprehension abilities of MDLMs and uncover two key limitations. First, despite their more global training objective and bidirectional attention mechanism, similarly to ARLMS, MDLMs exhibit a strong locality bias: performance is highly sensitive to the position of relevant information within the input, favouring local over distant context. Second, we show that appending a large number of mask tokens--required for generation--can significantly degrade context comprehension. Through systematic ablations, we find that these masks act as distractors, reducing the model's ability to process relevant information. To address this, we introduce a mask-agnostic loss function that encourages predictions to remain invariant to the number of appended masks. Fine-tuning with this objective substantially mitigates the distracting effect of masks, improving robustness of MDLMs. Overall, our findings reveal critical limitations of the current MDLM training paradigm and provide actionable insights for building diffusion-based language models with stronger context comprehension.

Máscaras Podem Ser Distrativas: Sobre a Compreensão de Contexto em Modelos de Linguagem de Difusão

Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models

Resumo

Support