ChatPaper.aiChatPaper

Équilibre entre compréhension et génération dans les modèles de diffusion discrets

Balancing Understanding and Generation in Discrete Diffusion Models

February 1, 2026
papers.authors: Yue Liu, Yuzhong Zhao, Zheyong Xie, Qixiang Ye, Jianbin Jiao, Yao Hu, Shaosheng Cao, Yunfan Liu
cs.AI

papers.abstract

Dans la modélisation générative discrète, deux paradigmes dominants présentent des capacités divergentes : les modèles de langage à diffusion masquée (MDLM) excellent dans la compréhension sémantique et la généralisation zero-shot, tandis que les modèles de langage à diffusion avec bruit uniforme (UDLM) atteignent une forte qualité de génération en peu d'étapes. Aucun des deux n'atteint cependant des performances équilibrées sur ces deux dimensions. Pour y remédier, nous proposons XDLM, qui unifie ces paradigmes via un noyau de bruit stationnaire. XDLM offre deux contributions majeures : (1) une unification théorique principiée des MDLM et UDLM, restaurant chaque paradigme comme cas particulier ; et (2) un goulot d'étranglement mémoire atténué grâce à une simplification algébrique des probabilités postérieures. Les expériences démontrent que XDLM repousse la frontière de Pareto entre capacité de compréhension et qualité de génération. Quantitativement, XDLM dépasse UDLM de 5,4 points sur des benchmarks textuels zero-shot et surpasse MDLM en génération d'images en peu d'étapes (FID 54,1 contre 80,8). Lorsqu'il est mis à l'échelle pour fine-tuner un grand modèle de langage de 8B paramètres, XDLM atteint 15,0 sur MBPP en seulement 32 étapes, doublant efficacement les performances de base. Enfin, l'analyse de la dynamique d'apprentissage révèle le potentiel supérieur de XDLM pour un scaling à long terme. Le code est disponible à l'adresse https://github.com/MzeroMiko/XDLM
English
In discrete generative modeling, two dominant paradigms demonstrate divergent capabilities: Masked Diffusion Language Models (MDLM) excel at semantic understanding and zero-shot generalization, whereas Uniform-noise Diffusion Language Models (UDLM) achieve strong few-step generation quality, yet neither attains balanced performance across both dimensions. To address this, we propose XDLM, which bridges the two paradigms via a stationary noise kernel. XDLM offers two key contributions: (1) it provides a principled theoretical unification of MDLM and UDLM, recovering each paradigm as a special case; and (2) an alleviated memory bottleneck enabled by an algebraic simplification of the posterior probabilities. Experiments demonstrate that XDLM advances the Pareto frontier between understanding capability and generation quality. Quantitatively, XDLM surpasses UDLM by 5.4 points on zero-shot text benchmarks and outperforms MDLM in few-step image generation (FID 54.1 vs. 80.8). When scaled to tune an 8B-parameter large language model, XDLM achieves 15.0 MBPP in just 32 steps, effectively doubling the baseline performance. Finally, analysis of training dynamics reveals XDLM's superior potential for long-term scaling. Code is available at https://github.com/MzeroMiko/XDLM
PDF111February 5, 2026