Difusión en Difusión: Recuperando la Coherencia Global en la Difusión Semi-Autorregresiva
Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion
January 20, 2026
Autores: Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang
cs.AI
Resumen
Una de las características más convincentes de los modelos de lenguaje de difusión discreta global es su capacidad contextual bidireccional global. Sin embargo, los estudios existentes sobre difusión basada en bloques tienden a introducer *priors* autorregresivos que, si bien ofrecen beneficios, pueden hacer que los modelos pierdan esta coherencia global a nivel macro. Para recuperar la comprensión contextual global preservando las ventajas del paradigma semi-autorregresivo, proponemos Difusión en Difusión (*Diffusion in Diffusion*), un marco de "borrador-y-refinamiento" diseñado para superar los problemas de irreversibilidad y miopía inherentes a los modelos de difusión por bloques. Nuestro enfoque emplea primero la difusión por bloques para generar borradores rápidos usando bloques pequeños, y luego refina estos borradores mediante difusión bidireccional global con un campo receptivo bidireccional más amplio. Utilizamos el reenmascaramiento por confianza de instantáneas (*snapshot confidence remasking*) para identificar los *tokens* más críticos que requieren modificación, y aplicamos entrenamiento con escalas mixtas (*mix-scale training*) para expandir las capacidades globales del modelo de difusión por bloques. Los resultados empíricos demuestran que nuestro enfoque establece un nuevo referente para los modelos de difusión discreta en el conjunto de datos OpenWebText. Utilizando solo el 26% del presupuesto de ajuste fino de los modelos base, reducimos la perplejidad generativa de 25.7 a 21.9, reduciendo significativamente la brecha de rendimiento con los modelos autorregresivos.
English
One of the most compelling features of global discrete diffusion language models is their global bidirectional contextual capability. However, existing block-based diffusion studies tend to introduce autoregressive priors, which, while offering benefits, can cause models to lose this global coherence at the macro level. To regain global contextual understanding while preserving the advantages of the semi-autoregressive paradigm, we propose Diffusion in Diffusion, a 'draft-then-refine' framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilize snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using only 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.