Bilanciare Comprensione e Generazione nei Modelli di Diffusione Discreti
Balancing Understanding and Generation in Discrete Diffusion Models
February 1, 2026
Autori: Yue Liu, Yuzhong Zhao, Zheyong Xie, Qixiang Ye, Jianbin Jiao, Yao Hu, Shaosheng Cao, Yunfan Liu
cs.AI
Abstract
Nella modellazione generativa discreta, due paradigmi dominanti mostrano capacità divergenti: i Modelli Linguistici di Diffusione con Mascheramento (MDLM) eccellono nella comprensione semantica e nella generalizzazione zero-shot, mentre i Modelli Linguistici di Diffusione con Rumore Uniforme (UDLM) raggiungono un'elevata qualità di generazione in pochi passi. Tuttavia, nessuno dei due consegue prestazioni bilanciate in entrambe le dimensioni. Per affrontare questa limitazione, proponiamo XDLM, che collega i due paradigmi attraverso un kernel di rumore stazionario. XDLM offre due contributi chiave: (1) fornisce un'unificazione teorica principiata di MDLM e UDLM, recuperando ciascun paradigma come caso speciale; e (2) un collo di bottiglia della memoria alleviato, reso possibile da una semplificazione algebrica delle probabilità a posteriori. Gli esperimenti dimostrano che XDLM avanza la frontiera di Pareto tra capacità di comprensione e qualità della generazione. Quantitativamente, XDLM supera UDLM di 5,4 punti su benchmark testuali zero-shot e supera MDLM nella generazione di immagini in pochi passi (FID 54,1 vs. 80,8). Quando scalato per ottimizzare un grande modello linguistico da 8 miliardi di parametri, XDLM raggiunge 15,0 su MBPP in soli 32 passi, raddoppiando efficacemente le prestazioni di base. Infine, l'analisi delle dinamiche di addestramento rivela il potenziale superiore di XDLM per lo scaling a lungo termine. Il codice è disponibile all'indirizzo https://github.com/MzeroMiko/XDLM.
English
In discrete generative modeling, two dominant paradigms demonstrate divergent capabilities: Masked Diffusion Language Models (MDLM) excel at semantic understanding and zero-shot generalization, whereas Uniform-noise Diffusion Language Models (UDLM) achieve strong few-step generation quality, yet neither attains balanced performance across both dimensions. To address this, we propose XDLM, which bridges the two paradigms via a stationary noise kernel. XDLM offers two key contributions: (1) it provides a principled theoretical unification of MDLM and UDLM, recovering each paradigm as a special case; and (2) an alleviated memory bottleneck enabled by an algebraic simplification of the posterior probabilities. Experiments demonstrate that XDLM advances the Pareto frontier between understanding capability and generation quality. Quantitatively, XDLM surpasses UDLM by 5.4 points on zero-shot text benchmarks and outperforms MDLM in few-step image generation (FID 54.1 vs. 80.8). When scaled to tune an 8B-parameter large language model, XDLM achieves 15.0 MBPP in just 32 steps, effectively doubling the baseline performance. Finally, analysis of training dynamics reveals XDLM's superior potential for long-term scaling. Code is available at https://github.com/MzeroMiko/XDLM