El Enmascaramiento Reflexivo de Múltiples Turnos Induce Razonamiento en Modelos de Difusión de Máscaras

Resumen

Mientras que el razonamiento en modelos autorregresivos (AR) suele realizarse mediante razonamiento de cadena de pensamiento y reflexión, su refinamiento de salidas prevadas sigue dependiendo de una generación completamente secuencial, incluso cuando solo se necesitan ediciones locales. Por el contrario, el mecanismo de enmascaramiento en los Modelos de Difusión con Máscaras (MDMs) respalda de forma natural las ediciones locales explícitas en salidas anteriores, lo que permite un refinamiento selectivo sin descartar respuestas previas ni generar otras desde cero. Aunque esta propiedad se alinea más estrechamente con la forma en que los humanos corrigen errores mediante un refinamiento local iterativo, los MDMs existentes no admiten el enmascaramiento y la eliminación de ruido en múltiples turnos. Proponemos el Enmascaramiento Reflexivo (RM), que induce dicha capacidad de razonamiento intrínseca en los MDMs mediante un post-entrenamiento ligero. RM proporciona un escalado nativo en tiempo de prueba, donde un MDM revisita y revisa iterativamente sus salidas previas basándose en un contexto en evolución. Para aprovechar los conocimientos de turnos anteriores, similar al razonamiento AR, introducimos la Referencia de Historial, un mecanismo sin parámetros que utiliza estados intermedios de eliminación de ruido durante la revisión. Nuestro enfoque no requiere cambios arquitectónicos y es fácilmente aplicable a los MDMs existentes. En diversas tareas y modalidades, que incluyen generación de texto, Sudoku y edición de imágenes, el Enmascaramiento Reflexivo supera consistentemente a las líneas base estándar basadas en enmascaramiento y demuestra una gran generalidad, posicionando a RM como una primitiva fundamental para el razonamiento en MDMs.

English

While reasoning on autoregressive (AR) models is often performed by chain-of-thought reasoning and reflection, their refinement of previous outputs still relies on fully sequential generation, even when only local edits are needed. In contrast, the masking mechanism in Mask Diffusion Models (MDMs) naturally supports explicit local edits on previous outputs, allowing selective refinement without discarding previous answers and generating another from scratch. While this property more closely aligns with how humans correct mistakes by iterative local refinement, existing MDMs do not support multi-turn masking and denoising. We propose Reflective Masking (RM), which elicits such an intrinsic reasoning capability in MDMs via lightweight post-training. RM provides a native test-time scaling, where an MDM iteratively revisits and revises its prior outputs based on evolving context. To exploit insights from previous turns like AR reasoning, we further introduce History Reference, a parameter-free mechanism that leverages intermediate denoising states during revision. Our approach requires no architectural changes and is easily applicable to existing MDMs. Across diverse tasks and modalities, including text generation, Sudoku, and image editing, Reflective Masking consistently outperforms standard masking-based baselines and demonstrates strong generality, positioning RM as a fundamental primitive for reasoning on MDMs.