마스크가 주의를 산만하게 할 수 있다: 확산 언어 모델의 맥락 이해에 관한 연구
Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models
November 26, 2025
저자: Julianna Piskorz, Cristina Pinneri, Alvaro Correia, Motasem Alfarra, Risheek Garrepalli, Christos Louizos
cs.AI
초록
마스크 확산 언어 모델(MDLM)은 최근 자기회귀 언어 모델(ARLM)의 유망한 대안으로 부상하며, 원칙적으로 더 균일한 문맥 활용을 가능하게 하는 잡음 제거 목표를 활용하고 있습니다. 본 연구에서는 MDLM의 문맥 이해 능력을 검토하고 두 가지 주요 한계를 발견했습니다. 첫째, 더 글로벌한 학습 목표와 양방향 어텐션 메커니즘에도 불구하고, MDLM은 ARLM과 유사하게 강한 지역성 편향을 보입니다: 성능은 입력 내 관련 정보의 위치에 매우 민감하여 원거리 문맥보다 인접한 문맥을 선호합니다. 둘째, 생성에 필요한 다수의 마스크 토큰을 추가하는 것이 문맥 이해를 현저히 저하시킬 수 있음을 보여줍니다. 체계적인 제거 실험을 통해 이러한 마스크들이 방해 요소로 작용하여 모델의 관련 정보 처리 능력을 감소시킨다는 사실을 확인했습니다. 이를 해결하기 위해, 우리는 예측이 추가된 마스크 수에 관계없이 불변하도록 유도하는 마스크 불가지론 손실 함수를 도입합니다. 이 목적 함수를 사용한 미세 조정은 마스크의 방해 효과를 크게 완화하여 MDLM의 견고성을 향상시킵니다. 전반적으로, 우리의 연구 결과는 현재 MDLM 학습 패러다임의 중요한 한계를 밝히고, 더 강력한 문맥 이해 능력을 가진 확산 기반 언어 모델 구축을 위한 실행 가능한 통찰력을 제공합니다.
English
Masked Diffusion Language Models (MDLMs) have recently emerged as a promising alternative to Autoregressive Language Models (ARLMs), leveraging a denoising objective that, in principle, should enable more uniform context utilisation. In this work, we examine the context comprehension abilities of MDLMs and uncover two key limitations. First, despite their more global training objective and bidirectional attention mechanism, similarly to ARLMS, MDLMs exhibit a strong locality bias: performance is highly sensitive to the position of relevant information within the input, favouring local over distant context. Second, we show that appending a large number of mask tokens--required for generation--can significantly degrade context comprehension. Through systematic ablations, we find that these masks act as distractors, reducing the model's ability to process relevant information. To address this, we introduce a mask-agnostic loss function that encourages predictions to remain invariant to the number of appended masks. Fine-tuning with this objective substantially mitigates the distracting effect of masks, improving robustness of MDLMs. Overall, our findings reveal critical limitations of the current MDLM training paradigm and provide actionable insights for building diffusion-based language models with stronger context comprehension.