Multi-Turn Reflectieve Maskering Roept Redeneren op in Mask-Diffusiemodellen

Samenvatting

Hoewel redeneren bij autoregressieve (AR) modellen vaak wordt uitgevoerd door middel van keten-van-gedachte redeneren en reflectie, blijft de verfijning van hun eerdere uitvoer gebaseerd op volledig sequentiële generatie, zelfs wanneer slechts lokale aanpassingen nodig zijn. Daarentegen ondersteunt het maskermechanisme in Mask Diffusiemodellen (MDM's) van nature expliciete lokale aanpassingen aan eerdere uitvoer, waardoor selectieve verfijning mogelijk is zonder eerdere antwoorden te verwerpen en een nieuw antwoord vanaf nul te genereren. Hoewel deze eigenschap beter aansluit bij hoe mensen fouten corrigeren door middel van iteratieve lokale verfijning, ondersteunen bestaande MDM's geen meerstaps maskeren en denoising. Wij stellen Reflectief Maskeren (RM) voor, dat een dergelijk intrinsiek redeneervermogen in MDM's mogelijk maakt via lichtgewicht post-training. RM biedt een nativee testtijd schaling, waarbij een MDM iteratief zijn eerdere uitvoer herziet en reviseert op basis van een evoluerende context. Om inzichten uit eerdere stappen, zoals bij AR-redeneren, te benutten, introduceren we bovendien Geschiedenisreferentie, een parameter-vrij mechanisme dat gebruikmaakt van tussentijdse denoising-toestanden tijdens revisie. Onze aanpak vereist geen architecturale wijzigingen en is gemakkelijk toepasbaar op bestaande MDM's. Bij diverse taken en modaliteiten, waaronder tekstgeneratie, Sudoku en beeldbewerking, presteert Reflectief Maskeren consistent beter dan standaard op maskeren gebaseerde basislijnen en toont het een sterke algemeenheid, waardoor RM wordt gepositioneerd als een fundamentele primitieve voor redeneren in MDM's.

English

While reasoning on autoregressive (AR) models is often performed by chain-of-thought reasoning and reflection, their refinement of previous outputs still relies on fully sequential generation, even when only local edits are needed. In contrast, the masking mechanism in Mask Diffusion Models (MDMs) naturally supports explicit local edits on previous outputs, allowing selective refinement without discarding previous answers and generating another from scratch. While this property more closely aligns with how humans correct mistakes by iterative local refinement, existing MDMs do not support multi-turn masking and denoising. We propose Reflective Masking (RM), which elicits such an intrinsic reasoning capability in MDMs via lightweight post-training. RM provides a native test-time scaling, where an MDM iteratively revisits and revises its prior outputs based on evolving context. To exploit insights from previous turns like AR reasoning, we further introduce History Reference, a parameter-free mechanism that leverages intermediate denoising states during revision. Our approach requires no architectural changes and is easily applicable to existing MDMs. Across diverse tasks and modalities, including text generation, Sudoku, and image editing, Reflective Masking consistently outperforms standard masking-based baselines and demonstrates strong generality, positioning RM as a fundamental primitive for reasoning on MDMs.