ChatPaper.aiChatPaper

Баланс между пониманием и генерацией в дискретных диффузионных моделях

Balancing Understanding and Generation in Discrete Diffusion Models

February 1, 2026
Авторы: Yue Liu, Yuzhong Zhao, Zheyong Xie, Qixiang Ye, Jianbin Jiao, Yao Hu, Shaosheng Cao, Yunfan Liu
cs.AI

Аннотация

В дискретном генеративном моделировании доминируют две парадигмы с различными возможностями: Masked Diffusion Language Models (MDLM) демонстрируют превосходство в семантическом понимании и zero-shot обобщении, тогда как Uniform-noise Diffusion Language Models (UDLM) достигают высокого качества генерации за малое число шагов, однако ни одна из них не обеспечивает сбалансированной производительности по обоим направлениям. Для решения этой проблемы мы предлагаем XDLM — подход, объединяющий две парадигмы посредством стационарного шумового ядра. Ключевые вклады XDLM заключаются в следующем: (1) принципиальное теоретическое объединение MDLM и UDLM, где каждая парадигма является частным случаем; (2) снижение требований к памяти благодаря алгебраическому упрощению апостериорных вероятностей. Эксперименты показывают, что XDLM расширяет границу Парето между способностью к пониманию и качеством генерации. Количественно XDLM превосходит UDLM на 5.4 пункта в zero-shot текстовых тестах и опережает MDLM в малошаговой генерации изображений (FID 54.1 против 80.8). При масштабировании для тонкой настройки крупной языковой модели с 8 млрд параметров XDLM достигает показателя 15.0 на MBPP всего за 32 шага, эффективно удваивая базовую производительность. Наконец, анализ динамики обучения выявляет превосходный потенциал XDLM для долгосрочного масштабирования. Код доступен по адресу https://github.com/MzeroMiko/XDLM
English
In discrete generative modeling, two dominant paradigms demonstrate divergent capabilities: Masked Diffusion Language Models (MDLM) excel at semantic understanding and zero-shot generalization, whereas Uniform-noise Diffusion Language Models (UDLM) achieve strong few-step generation quality, yet neither attains balanced performance across both dimensions. To address this, we propose XDLM, which bridges the two paradigms via a stationary noise kernel. XDLM offers two key contributions: (1) it provides a principled theoretical unification of MDLM and UDLM, recovering each paradigm as a special case; and (2) an alleviated memory bottleneck enabled by an algebraic simplification of the posterior probabilities. Experiments demonstrate that XDLM advances the Pareto frontier between understanding capability and generation quality. Quantitatively, XDLM surpasses UDLM by 5.4 points on zero-shot text benchmarks and outperforms MDLM in few-step image generation (FID 54.1 vs. 80.8). When scaled to tune an 8B-parameter large language model, XDLM achieves 15.0 MBPP in just 32 steps, effectively doubling the baseline performance. Finally, analysis of training dynamics reveals XDLM's superior potential for long-term scaling. Code is available at https://github.com/MzeroMiko/XDLM
PDF111February 5, 2026