Equilibrio entre Comprensión y Generación en Modelos de Difusión Discretos
Balancing Understanding and Generation in Discrete Diffusion Models
February 1, 2026
Autores: Yue Liu, Yuzhong Zhao, Zheyong Xie, Qixiang Ye, Jianbin Jiao, Yao Hu, Shaosheng Cao, Yunfan Liu
cs.AI
Resumen
En el modelado generativo discreto, dos paradigmas dominantes muestran capacidades divergentes: los Modelos de Lenguaje de Difusión Enmascarada (MDLM) sobresalen en comprensión semántica y generalización zero-shot, mientras que los Modelos de Lenguaje de Difusión con Ruido Uniforme (UDLM) logran una alta calidad de generación en pocos pasos; sin embargo, ninguno alcanza un rendimiento equilibrado en ambas dimensiones. Para abordar esto, proponemos XDLM, que une ambos paradigmas mediante un núcleo de ruido estacionario. XDLM ofrece dos contribuciones clave: (1) proporciona una unificación teórica fundamentada de MDLM y UDLM, recuperando cada paradigma como un caso especial; y (2) un cuello de botella de memoria aliviado, habilitado por una simplificación algebraica de las probabilidades posteriores. Los experimentos demuestran que XDLM avanza la frontera de Pareto entre la capacidad de comprensión y la calidad de generación. Cuantitativamente, XDLM supera a UDLM por 5.4 puntos en benchmarks de texto zero-shot y supera a MDLM en generación de imágenes en pocos pasos (FID 54.1 frente a 80.8). Al escalarse para ajustar un modelo de lenguaje grande de 8B de parámetros, XDLM alcanza 15.0 en MBPP con solo 32 pasos, duplicando efectivamente el rendimiento de la línea base. Finalmente, el análisis de la dinámica del entrenamiento revela el potencial superior de XDLM para el escalado a largo plazo. El código está disponible en https://github.com/MzeroMiko/XDLM.
English
In discrete generative modeling, two dominant paradigms demonstrate divergent capabilities: Masked Diffusion Language Models (MDLM) excel at semantic understanding and zero-shot generalization, whereas Uniform-noise Diffusion Language Models (UDLM) achieve strong few-step generation quality, yet neither attains balanced performance across both dimensions. To address this, we propose XDLM, which bridges the two paradigms via a stationary noise kernel. XDLM offers two key contributions: (1) it provides a principled theoretical unification of MDLM and UDLM, recovering each paradigm as a special case; and (2) an alleviated memory bottleneck enabled by an algebraic simplification of the posterior probabilities. Experiments demonstrate that XDLM advances the Pareto frontier between understanding capability and generation quality. Quantitatively, XDLM surpasses UDLM by 5.4 points on zero-shot text benchmarks and outperforms MDLM in few-step image generation (FID 54.1 vs. 80.8). When scaled to tune an 8B-parameter large language model, XDLM achieves 15.0 MBPP in just 32 steps, effectively doubling the baseline performance. Finally, analysis of training dynamics reveals XDLM's superior potential for long-term scaling. Code is available at https://github.com/MzeroMiko/XDLM