ChatPaper.aiChatPaper

이산 확산 모델에서 이해와 생성의 균형 맞추기

Balancing Understanding and Generation in Discrete Diffusion Models

February 1, 2026
저자: Yue Liu, Yuzhong Zhao, Zheyong Xie, Qixiang Ye, Jianbin Jiao, Yao Hu, Shaosheng Cao, Yunfan Liu
cs.AI

초록

이산 생성 모델링에서 두 가지 주요 패러다임이 상이한 능력을 보여준다: 마스크 확산 언어 모델(MDLM)은 의미론적 이해와 제로샷 일반화에서 뛰어난 반면, 균일 잡음 확산 언어 모델(UDLM)은 강력한 few-step 생성 품질을 달성하지만, 두 차원 모두에서 균형 잡힌 성능을 달성하는 모델은 없다. 이를 해결하기 위해 우리는 정상 잡음 커널을 통해 두 패러다임을 연결하는 XDLM을 제안한다. XDLM은 두 가지 주요 기여를 제공한다: (1) MDLM과 UDLM의 이론적 통합을 원리적으로 제시하며, 각 패러다임을 특수 사례로 복원한다; (2) 사후 확률의 대수적 단순화를 통해 완화된 메모리 병목 현상이다. 실험 결과 XDLM이 이해 능력과 생성 품질 간 파레토 최적 경계를 발전시킴을 입증했다. 정량적으로 XDLM은 제로샷 텍스트 벤치마크에서 UDLM을 5.4점 앞섰으며, few-step 이미지 생성에서는 MDLM을 성능(FID 54.1 대 80.8)으로 능가했다. 80억 파라미터 대규모 언어 모델 튜닝에 확장 적용 시, XDLM은 단 32단계만에 MBPP 15.0을 달성하여 기준 성능을 효과적으로 두 배 향상시켰다. 마지막으로 훈련 동역학 분석을 통해 XDLM의 장기 확장성 우수성을 확인했다. 코드는 https://github.com/MzeroMiko/XDLM에서 이용 가능하다.
English
In discrete generative modeling, two dominant paradigms demonstrate divergent capabilities: Masked Diffusion Language Models (MDLM) excel at semantic understanding and zero-shot generalization, whereas Uniform-noise Diffusion Language Models (UDLM) achieve strong few-step generation quality, yet neither attains balanced performance across both dimensions. To address this, we propose XDLM, which bridges the two paradigms via a stationary noise kernel. XDLM offers two key contributions: (1) it provides a principled theoretical unification of MDLM and UDLM, recovering each paradigm as a special case; and (2) an alleviated memory bottleneck enabled by an algebraic simplification of the posterior probabilities. Experiments demonstrate that XDLM advances the Pareto frontier between understanding capability and generation quality. Quantitatively, XDLM surpasses UDLM by 5.4 points on zero-shot text benchmarks and outperforms MDLM in few-step image generation (FID 54.1 vs. 80.8). When scaled to tune an 8B-parameter large language model, XDLM achieves 15.0 MBPP in just 32 steps, effectively doubling the baseline performance. Finally, analysis of training dynamics reveals XDLM's superior potential for long-term scaling. Code is available at https://github.com/MzeroMiko/XDLM
PDF111February 5, 2026