ChatPaper.aiChatPaper

Les masques peuvent distraire : sur la compréhension contextuelle dans les modèles de langage par diffusion

Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models

November 26, 2025
papers.authors: Julianna Piskorz, Cristina Pinneri, Alvaro Correia, Motasem Alfarra, Risheek Garrepalli, Christos Louizos
cs.AI

papers.abstract

Les modèles de langage à diffusion masquée (MDLM) sont récemment apparus comme une alternative prometteuse aux modèles de langage autorégressifs (ARLM), exploitant un objectif de débruitage qui, en principe, devrait permettre une utilisation plus uniforme du contexte. Dans ce travail, nous examinons les capacités de compréhension contextuelle des MDLM et mettons en lumière deux limitations majeures. Premièrement, malgré leur objectif d'entraînement plus global et leur mécanisme d'attention bidirectionnelle, les MDLM présentent, à l'instar des ARLM, un biais de localité prononcé : leurs performances sont très sensibles à la position des informations pertinentes dans l'entrée, favorisant le contexte local au détriment du contexte distant. Deuxièmement, nous montrons que l'ajout d'un grand nombre de tokens de masque—nécessaires à la génération—peut considérablement dégrader la compréhension contextuelle. Par des ablations systématiques, nous constatons que ces masques agissent comme des distracteurs, réduisant la capacité du modèle à traiter les informations pertinentes. Pour remédier à cela, nous introduisons une fonction de perte agnostique aux masques qui encourage les prédictions à rester invariantes au nombre de masques ajoutés. Le fine-tuning avec cet objectif atténue substantiellement l'effet distracteur des masques, améliorant la robustesse des MDLM. Globalement, nos résultats révèlent des limitations critiques du paradigme d'entraînement actuel des MDLM et fournissent des pistes concrètes pour développer des modèles de langage basés sur la diffusion ayant une meilleure compréhension contextuelle.
English
Masked Diffusion Language Models (MDLMs) have recently emerged as a promising alternative to Autoregressive Language Models (ARLMs), leveraging a denoising objective that, in principle, should enable more uniform context utilisation. In this work, we examine the context comprehension abilities of MDLMs and uncover two key limitations. First, despite their more global training objective and bidirectional attention mechanism, similarly to ARLMS, MDLMs exhibit a strong locality bias: performance is highly sensitive to the position of relevant information within the input, favouring local over distant context. Second, we show that appending a large number of mask tokens--required for generation--can significantly degrade context comprehension. Through systematic ablations, we find that these masks act as distractors, reducing the model's ability to process relevant information. To address this, we introduce a mask-agnostic loss function that encourages predictions to remain invariant to the number of appended masks. Fine-tuning with this objective substantially mitigates the distracting effect of masks, improving robustness of MDLMs. Overall, our findings reveal critical limitations of the current MDLM training paradigm and provide actionable insights for building diffusion-based language models with stronger context comprehension.
PDF11December 4, 2025