Mehrfachschritt-reflektives Maskieren induziert logisches Denken in Mask-Diffusionsmodellen.

Zusammenfassung

Während das Schlussfolgern in autoregressiven Modellen (AR-Modellen) häufig durch Schlussfolgerungsketten und Reflexion erfolgt, basiert die Verbesserung vorheriger Ausgaben dennoch auf einer vollständig sequenziellen Generierung, selbst wenn nur lokale Änderungen erforderlich sind. Im Gegensatz dazu unterstützt der Maskierungsmechanismus in Maskendiffusionsmodellen (MDMs) auf natürliche Weise explizite lokale Änderungen an vorherigen Ausgaben, was eine selektive Verbesserung ermöglicht, ohne vorherige Antworten zu verwerfen und eine weitere von Grund auf neu zu generieren. Während diese Eigenschaft besser mit der Art und Weise übereinstimmt, wie Menschen Fehler durch iterative lokale Verbesserungen korrigieren, unterstützen bestehende MDMs keine mehrschrittige Maskierung und Entrauschung. Wir schlagen die Reflektierende Maskierung (RM) vor, die eine solche intrinsische Schlussfolgerungsfähigkeit in MDMs durch leichtgewichtiges Nachtraining hervorruft. RM bietet eine native Skalierung zur Testzeit, bei der ein MDM iterativ seine vorherigen Ausgaben auf der Grundlage eines sich entwickelnden Kontexts erneut aufruft und überarbeitet. Um Erkenntnisse aus vorherigen Schritten wie beim AR-Schlussfolgern zu nutzen, führen wir weiterhin die Historie-Referenz ein, einen parameterfreien Mechanismus, der während der Überarbeitung Zwischenentrauschungszustände nutzt. Unser Ansatz erfordert keine architektonischen Änderungen und ist leicht auf bestehende MDMs anwendbar. Über verschiedene Aufgaben und Modalitäten hinweg, einschließlich Textgenerierung, Sudoku und Bildbearbeitung, übertrifft die Reflektierende Maskierung durchgängig standardmäßige maskierungsbasierte Basislinien und zeigt eine starke Allgemeingültigkeit, was RM als grundlegendes Primitive für das Schlussfolgern auf MDMs positioniert.

English

While reasoning on autoregressive (AR) models is often performed by chain-of-thought reasoning and reflection, their refinement of previous outputs still relies on fully sequential generation, even when only local edits are needed. In contrast, the masking mechanism in Mask Diffusion Models (MDMs) naturally supports explicit local edits on previous outputs, allowing selective refinement without discarding previous answers and generating another from scratch. While this property more closely aligns with how humans correct mistakes by iterative local refinement, existing MDMs do not support multi-turn masking and denoising. We propose Reflective Masking (RM), which elicits such an intrinsic reasoning capability in MDMs via lightweight post-training. RM provides a native test-time scaling, where an MDM iteratively revisits and revises its prior outputs based on evolving context. To exploit insights from previous turns like AR reasoning, we further introduce History Reference, a parameter-free mechanism that leverages intermediate denoising states during revision. Our approach requires no architectural changes and is easily applicable to existing MDMs. Across diverse tasks and modalities, including text generation, Sudoku, and image editing, Reflective Masking consistently outperforms standard masking-based baselines and demonstrates strong generality, positioning RM as a fundamental primitive for reasoning on MDMs.