Balanceren tussen Begrip en Generatie in Discrete Diffusiemodellen
Balancing Understanding and Generation in Discrete Diffusion Models
February 1, 2026
Auteurs: Yue Liu, Yuzhong Zhao, Zheyong Xie, Qixiang Ye, Jianbin Jiao, Yao Hu, Shaosheng Cao, Yunfan Liu
cs.AI
Samenvatting
In discrete generatieve modellering vertonen twee dominante paradigma's uiteenlopende capaciteiten: Gemaskeerde Diffusie Taalmodellen (MDLM) blinken uit in semantisch begrip en zero-shot generalisatie, terwijl Uniforme-ruis Diffusie Taalmodellen (UDLM) sterke kwaliteit bereiken bij generatie in weinig stappen. Geen van beide behaalt evenwichtige prestaties op beide dimensies. Om dit aan te pakken, stellen we XDLM voor, dat de twee paradigma's verbindt via een stationaire ruiskernel. XDLM biedt twee belangrijke bijdragen: (1) het verschaft een principiële theoretische unificatie van MDLM en UDLM, waarbij elk paradigma wordt gerecupereerd als een speciaal geval; en (2) een verlichte geheugenbottleneck mogelijk gemaakt door een algebraïsche vereenvoudiging van de posterior kansen. Experimenten tonen aan dat XDLM de Pareto-frontier tussen begripscapaciteit en generatiekwaliteit verlegt. Kwantitatief overtreft XDLM UDLM met 5.4 punten op zero-shot tekstbenchmarks en presteert het beter dan MDLM bij beeldgeneratie in weinig stappen (FID 54.1 vs. 80.8). Bij het opschalen om een groot taalmodel van 8B parameters af te stemmen, behaalt XDLM 15.0 MBPP in slechts 32 stappen, wat de basislijngprestatie effectief verdubbelt. Ten slotte onthult analyse van de traindynamiek XDLM's superieure potentieel voor langetermijnschaling. Code is beschikbaar op https://github.com/MzeroMiko/XDLM.
English
In discrete generative modeling, two dominant paradigms demonstrate divergent capabilities: Masked Diffusion Language Models (MDLM) excel at semantic understanding and zero-shot generalization, whereas Uniform-noise Diffusion Language Models (UDLM) achieve strong few-step generation quality, yet neither attains balanced performance across both dimensions. To address this, we propose XDLM, which bridges the two paradigms via a stationary noise kernel. XDLM offers two key contributions: (1) it provides a principled theoretical unification of MDLM and UDLM, recovering each paradigm as a special case; and (2) an alleviated memory bottleneck enabled by an algebraic simplification of the posterior probabilities. Experiments demonstrate that XDLM advances the Pareto frontier between understanding capability and generation quality. Quantitatively, XDLM surpasses UDLM by 5.4 points on zero-shot text benchmarks and outperforms MDLM in few-step image generation (FID 54.1 vs. 80.8). When scaled to tune an 8B-parameter large language model, XDLM achieves 15.0 MBPP in just 32 steps, effectively doubling the baseline performance. Finally, analysis of training dynamics reveals XDLM's superior potential for long-term scaling. Code is available at https://github.com/MzeroMiko/XDLM