ChatPaper.aiChatPaper

Диффузия в диффузии: восстановление глобальной когерентности в полуавторегрессионных диффузионных моделях

Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion

January 20, 2026
Авторы: Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang
cs.AI

Аннотация

Одной из наиболее примечательных особенностей глобальных дискретных диффузионных языковых моделей является их глобальная двунаправленная контекстная способность. Однако существующие исследования блочной диффузии склонны вводить авторегрессионные априорные предположения, которые, хотя и предоставляют преимущества, могут приводить к потере моделями этой глобальной связности на макроуровне. Чтобы восстановить глобальное контекстное понимание, сохраняя преимущества полуавторегрессионной парадигмы, мы предлагаем метод Diffusion in Diffusion — фреймворк «черновик-затем-уточнение», предназначенный для преодоления проблем необратимости и близорукости, присущих блочным диффузионным моделям. Наш подход сначала использует блочную диффузию для быстрого создания черновиков с помощью небольших блоков, а затем уточняет эти черновики посредством глобальной двунаправленной диффузии с увеличенным двунаправленным рецептивным полем. Мы используем повторное маскирование на основе уверенности (snapshot confidence remasking) для идентификации наиболее критичных токенов, требующих модификации, и применяем обучение с混合 масштабов (mix-scale training) для расширения глобальных возможностей блочной диффузионной модели. Экспериментальные результаты демонстрируют, что наш подход устанавливает новый эталон для дискретных диффузионных моделей на наборе данных OpenWebText. Используя всего 26% бюджета тонкой настройки базовых моделей, мы снижаем перплексию генерации с 25.7 до 21.9, значительно сокращая разрыв в производительности с авторегрессионными моделями.
English
One of the most compelling features of global discrete diffusion language models is their global bidirectional contextual capability. However, existing block-based diffusion studies tend to introduce autoregressive priors, which, while offering benefits, can cause models to lose this global coherence at the macro level. To regain global contextual understanding while preserving the advantages of the semi-autoregressive paradigm, we propose Diffusion in Diffusion, a 'draft-then-refine' framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilize snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using only 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.
PDF32January 28, 2026