Abwägung zwischen Verständnis und Generierung in diskreten Diffusionsmodellen
Balancing Understanding and Generation in Discrete Diffusion Models
February 1, 2026
papers.authors: Yue Liu, Yuzhong Zhao, Zheyong Xie, Qixiang Ye, Jianbin Jiao, Yao Hu, Shaosheng Cao, Yunfan Liu
cs.AI
papers.abstract
In der diskreten generativen Modellierung zeigen zwei dominante Paradigmen unterschiedliche Fähigkeiten: Masked Diffusion Language Models (MDLM) zeichnen sich durch semantisches Verständnis und Zero-Shot-Generalisierung aus, während Uniform-noise Diffusion Language Models (UDLM) eine hohe Erzeugungsqualität mit wenigen Schritten erreichen. Keines der Paradigmen erzielt jedoch eine ausgewogene Leistung in beiden Dimensionen. Um dieses Problem zu lösen, schlagen wir XDLM vor, das die beiden Paradigmen durch einen stationären Rauschkern verbindet. XDLM bietet zwei wesentliche Beiträge: (1) Es bietet eine prinzipielle theoretische Vereinheitlichung von MDLM und UDLM, wobei jedes Paradigma als Spezialfall abgeleitet wird; und (2) einen verringerten Memory-Engpass, ermöglicht durch eine algebraische Vereinfachung der posterior-Wahrscheinlichkeiten. Experimente zeigen, dass XDLM die Pareto-Grenze zwischen Verständnisfähigkeit und Erzeugungsqualität erweitert. Quantitativ übertrifft XDLM UDLM um 5,4 Punkte bei Zero-Shot-Textbenchmarks und übertrifft MDLM in der Bildgenerierung mit wenigen Schritten (FID 54,1 vs. 80,8). Bei der Skalierung zur Feinabstimmung eines Large Language Models mit 8B Parametern erreicht XDLM 15,0 MBPP in nur 32 Schritten und verdoppelt damit effektiv die Baseline-Leistung. Schließlich zeigt die Analyse der Trainingsdynamik das überlegene Skalierungspotenzial von XDLM auf lange Sicht. Der Code ist verfügbar unter https://github.com/MzeroMiko/XDLM.
English
In discrete generative modeling, two dominant paradigms demonstrate divergent capabilities: Masked Diffusion Language Models (MDLM) excel at semantic understanding and zero-shot generalization, whereas Uniform-noise Diffusion Language Models (UDLM) achieve strong few-step generation quality, yet neither attains balanced performance across both dimensions. To address this, we propose XDLM, which bridges the two paradigms via a stationary noise kernel. XDLM offers two key contributions: (1) it provides a principled theoretical unification of MDLM and UDLM, recovering each paradigm as a special case; and (2) an alleviated memory bottleneck enabled by an algebraic simplification of the posterior probabilities. Experiments demonstrate that XDLM advances the Pareto frontier between understanding capability and generation quality. Quantitatively, XDLM surpasses UDLM by 5.4 points on zero-shot text benchmarks and outperforms MDLM in few-step image generation (FID 54.1 vs. 80.8). When scaled to tune an 8B-parameter large language model, XDLM achieves 15.0 MBPP in just 32 steps, effectively doubling the baseline performance. Finally, analysis of training dynamics reveals XDLM's superior potential for long-term scaling. Code is available at https://github.com/MzeroMiko/XDLM