ChatPaper.aiChatPaper

확산 속의 확산: 준자기회귀 확산 모델에서의 전역적 일관성 회복

Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion

January 20, 2026
저자: Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang
cs.AI

초록

글로벌 이산 확산 언어 모델의 가장 강력한 특징 중 하나는 전역적 양방향 문맥 이해 능력입니다. 그러나 기존 블록 기반 확산 연구는 자기회귀적 사전 분포를 도입하는 경향이 있어 일부 이점은 있지만 거시적 수준에서 이러한 전역적 일관성을 상실할 수 있습니다. 준-자기회귀 패러다임의 장점을 유지하면서 전역적 문맥 이해를 회복하기 위해, 우리는 블록 확산 모델에 내재된 비가역성과 근시안적 문제를 극복하기 위한 '초안 생성 후 정제' 프레임워크인 Diffusion in Diffusion을 제안합니다. 우리의 접근법은 먼저 소규모 블록을 사용한 블록 확산으로 신속한 초안을 생성한 다음, 더 큰 양방향 수용 영역을 갖춘 전역적 양방향 확산을 통해 이러한 초안을 정제합니다. 스냅샷 신뢰도 재마스킹을 통해 수정이 가장 필요한 핵심 토큰을 식별하고, 혼합 규모 학습을 적용하여 블록 확산 모델의 전역적 능력을 확장합니다. 실험 결과는 우리의 접근법이 OpenWebText 데이터셋에서 이산 확산 모델의 새로운 벤치마크를 수립함을 보여줍니다. 기준 모델 대비 26%의 미세 조정 예산만으로 생성적 perplexity를 25.7에서 21.9로 낮추어 자기회귀 모델과의 성능 격차를 크게 좁혔습니다.
English
One of the most compelling features of global discrete diffusion language models is their global bidirectional contextual capability. However, existing block-based diffusion studies tend to introduce autoregressive priors, which, while offering benefits, can cause models to lose this global coherence at the macro level. To regain global contextual understanding while preserving the advantages of the semi-autoregressive paradigm, we propose Diffusion in Diffusion, a 'draft-then-refine' framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilize snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using only 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.
PDF32January 28, 2026