ChatPaper.aiChatPaper

Diffusion dans la diffusion : Récupération de la cohérence globale dans les modèles de diffusion semi-autorégressifs

Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion

January 20, 2026
papers.authors: Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang
cs.AI

papers.abstract

L'une des caractéristiques les plus convaincantes des modèles de langage par diffusion discrète globale est leur capacité contextuelle bidirectionnelle globale. Cependant, les études existantes sur la diffusion par blocs tendent à introduire des prérequis autorégressifs qui, bien qu'utiles, peuvent entraîner une perte de cohérence globale au niveau macro. Pour retrouver une compréhension contextuelle globale tout en préservant les avantages du paradigme semi-autorégressif, nous proposons Diffusion dans la Diffusion, un cadre « ébauche-puis-affinage » conçu pour surmonter les problèmes d'irréversibilité et de myopie inhérents aux modèles de diffusion par blocs. Notre approche utilise d'abord la diffusion par blocs pour générer des ébauches rapides avec de petits blocs, puis affine ces ébauches via une diffusion bidirectionnelle globale offrant un champ réceptif plus étendu. Nous utilisons un remasquage par confiance instantané pour identifier les tokens les plus critiques nécessitant une modification, et appliquons un entraînement à échelle mixte pour étendre les capacités globales du modèle de diffusion par blocs. Les résultats empiriques démontrent que notre approche établit une nouvelle référence pour les modèles de diffusion discrète sur le jeu de données OpenWebText. En utilisant seulement 26 % du budget de fine-tuning des modèles de référence, nous réduisons la perplexité générative de 25,7 à 21,9, comblant significativement l'écart de performance avec les modèles autorégressifs.
English
One of the most compelling features of global discrete diffusion language models is their global bidirectional contextual capability. However, existing block-based diffusion studies tend to introduce autoregressive priors, which, while offering benefits, can cause models to lose this global coherence at the macro level. To regain global contextual understanding while preserving the advantages of the semi-autoregressive paradigm, we propose Diffusion in Diffusion, a 'draft-then-refine' framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilize snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using only 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.
PDF32January 28, 2026