Equilíbrio entre Compreensão e Geração em Modelos de Difusão Discreta
Balancing Understanding and Generation in Discrete Diffusion Models
February 1, 2026
Autores: Yue Liu, Yuzhong Zhao, Zheyong Xie, Qixiang Ye, Jianbin Jiao, Yao Hu, Shaosheng Cao, Yunfan Liu
cs.AI
Resumo
Na modelagem generativa discreta, dois paradigmas dominantes demonstram capacidades divergentes: os Modelos de Linguagem de Difusão com Mascaramento (MDLM) destacam-se na compreensão semântica e generalização *zero-shot*, enquanto os Modelos de Linguagem de Difusão com Ruído Uniforme (UDLM) alcançam alta qualidade de geração em poucos passos. No entanto, nenhum deles atinge um desempenho equilibrado em ambas as dimensões. Para resolver isso, propomos o XDLM, que une os dois paradigmas por meio de um kernel de ruído estacionário. O XDLM oferece duas contribuições principais: (1) fornece uma unificação teórica fundamentada do MDLM e do UDLM, recuperando cada paradigma como um caso especial; e (2) um gargalo de memória aliviado, possibilitado por uma simplificação algébrica das probabilidades posteriores. Experimentos demonstram que o XDLM avança a fronteira de Pareto entre a capacidade de compreensão e a qualidade de geração. Quantitativamente, o XDLM supera o UDLM em 5,4 pontos em benchmarks de texto *zero-shot* e supera o MDLM na geração de imagens em poucos passos (FID 54,1 vs. 80,8). Quando dimensionado para ajustar um modelo de linguagem grande de 8 bilhões de parâmetros, o XDLM atinge 15,0 no MBPP em apenas 32 passos, efetivamente dobrando o desempenho da linha de base. Por fim, a análise da dinâmica de treinamento revela o potencial superior do XDLM para escalonamento de longo prazo. O código está disponível em https://github.com/MzeroMiko/XDLM.
English
In discrete generative modeling, two dominant paradigms demonstrate divergent capabilities: Masked Diffusion Language Models (MDLM) excel at semantic understanding and zero-shot generalization, whereas Uniform-noise Diffusion Language Models (UDLM) achieve strong few-step generation quality, yet neither attains balanced performance across both dimensions. To address this, we propose XDLM, which bridges the two paradigms via a stationary noise kernel. XDLM offers two key contributions: (1) it provides a principled theoretical unification of MDLM and UDLM, recovering each paradigm as a special case; and (2) an alleviated memory bottleneck enabled by an algebraic simplification of the posterior probabilities. Experiments demonstrate that XDLM advances the Pareto frontier between understanding capability and generation quality. Quantitatively, XDLM surpasses UDLM by 5.4 points on zero-shot text benchmarks and outperforms MDLM in few-step image generation (FID 54.1 vs. 80.8). When scaled to tune an 8B-parameter large language model, XDLM achieves 15.0 MBPP in just 32 steps, effectively doubling the baseline performance. Finally, analysis of training dynamics reveals XDLM's superior potential for long-term scaling. Code is available at https://github.com/MzeroMiko/XDLM