Muddit: Расширение границ генерации за пределы текста в изображение с помощью унифицированной модели дискретной диффузии
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model
May 29, 2025
Авторы: Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan
cs.AI
Аннотация
Унифицированные модели генерации направлены на решение разнообразных задач в различных модальностях — таких как генерация текста, генерация изображений и рассуждения на основе визуально-языковых данных — в рамках единой архитектуры и парадигмы декодирования. Авторегрессивные унифицированные модели страдают от медленного вывода из-за последовательного декодирования, а неавторегрессивные унифицированные модели демонстрируют слабую обобщающую способность из-за ограниченных предобученных базовых моделей. Мы представляем Muddit — унифицированный трансформер с дискретным диффузионным процессом, который обеспечивает быструю и параллельную генерацию как для текстовой, так и для визуальной модальностей. В отличие от предыдущих унифицированных диффузионных моделей, обучаемых с нуля, Muddit интегрирует сильные визуальные априорные знания из предобученной модели для генерации изображений по тексту с легковесным текстовым декодером, что позволяет осуществлять гибкую и качественную мультимодальную генерацию в рамках единой архитектуры. Экспериментальные результаты показывают, что Muddit достигает конкурентоспособного или превосходящего качества и эффективности по сравнению с значительно более крупными авторегрессивными моделями. Данная работа подчеркивает потенциал чисто дискретного диффузионного подхода, оснащенного сильными визуальными априорными знаниями, в качестве масштабируемой и эффективной базовой модели для унифицированной генерации.
English
Unified generation models aim to handle diverse tasks across modalities --
such as text generation, image generation, and vision-language reasoning --
within a single architecture and decoding paradigm. Autoregressive unified
models suffer from slow inference due to sequential decoding, and
non-autoregressive unified models suffer from weak generalization due to
limited pretrained backbones. We introduce Muddit, a unified discrete diffusion
transformer that enables fast and parallel generation across both text and
image modalities. Unlike prior unified diffusion models trained from scratch,
Muddit integrates strong visual priors from a pretrained text-to-image backbone
with a lightweight text decoder, enabling flexible and high-quality multimodal
generation under a unified architecture. Empirical results show that Muddit
achieves competitive or superior performance compared to significantly larger
autoregressive models in both quality and efficiency. The work highlights the
potential of purely discrete diffusion, when equipped with strong visual
priors, as a scalable and effective backbone for unified generation.Summary
AI-Generated Summary