ChatPaper.aiChatPaper

Модель дискретной диффузии с непрерывным расширением для генеративного моделирования категориальных данных

Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling

October 1, 2025
Авторы: Huangjie Zheng, Shansan Gong, Ruixiang Zhang, Tianrong Chen, Jiatao Gu, Mingyuan Zhou, Navdeep Jaitly, Yizhe Zhang
cs.AI

Аннотация

Стандартные дискретные диффузионные модели обрабатывают все ненаблюдаемые состояния одинаково, отображая их на поглощающий токен [MASK]. Это создает «информационную пустоту», где семантическая информация, которую можно вывести из немасштабированных токенов, теряется между шагами удаления шума. Мы представляем Continuously Augmented Discrete Diffusion (CADD) — фреймворк, который расширяет дискретное пространство состояний за счет парной диффузии в непрерывном латентном пространстве. Это позволяет получить градуированные, постепенно искаженные состояния, в которых маскированные токены представлены зашумленными, но информативными латентными векторами, а не коллапсированными «информационными пустотами». На каждом обратном шаге CADD может использовать непрерывный латентный вектор как семантическую подсказку для управления дискретным удалением шума. Дизайн является простым и совместимым с существующими методами обучения дискретных диффузионных моделей. Во время генерации сила и выбор оценки для непрерывного латентного вектора позволяют контролировать баланс между охватом мод (генерация разнообразных выходов) и поиском мод (генерация контекстуально точных выходов). Эмпирически мы демонстрируем, что CADD улучшает качество генерации по сравнению с маскированными диффузионными моделями в задачах генерации текста, синтеза изображений и моделирования кода, показывая стабильные улучшения как на качественных, так и на количественных метриках по сравнению с сильными дискретными базовыми моделями.
English
Standard discrete diffusion models treat all unobserved states identically by mapping them to an absorbing [MASK] token. This creates an 'information void' where semantic information that could be inferred from unmasked tokens is lost between denoising steps. We introduce Continuously Augmented Discrete Diffusion (CADD), a framework that augments the discrete state space with a paired diffusion in a continuous latent space. This yields graded, gradually corrupted states in which masked tokens are represented by noisy yet informative latent vectors rather than collapsed 'information voids'. At each reverse step, CADD may leverage the continuous latent as a semantic hint to guide discrete denoising. The design is clean and compatible with existing discrete diffusion training. At sampling time, the strength and choice of estimator for the continuous latent vector enables a controlled trade-off between mode-coverage (generating diverse outputs) and mode-seeking (generating contextually precise outputs) behaviors. Empirically, we demonstrate CADD improves generative quality over mask-based diffusion across text generation, image synthesis, and code modeling, with consistent gains on both qualitative and quantitative metrics against strong discrete baselines.
PDF53October 6, 2025