Muddit: Liberare la Generazione Oltre il Testo-Immagine con un Modello Unificato di Diffusione Discreta
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model
May 29, 2025
Autori: Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan
cs.AI
Abstract
I modelli di generazione unificati mirano a gestire compiti diversificati attraverso diverse modalità -- come la generazione di testo, la generazione di immagini e il ragionamento visivo-linguistico -- all'interno di un'unica architettura e paradigma di decodifica. I modelli unificati autoregressivi soffrono di un'inferenza lenta a causa della decodifica sequenziale, mentre i modelli unificati non autoregressivi presentano una generalizzazione debole a causa di backbone pre-addestrati limitati. Introduciamo Muddit, un trasformatore di diffusione discreta unificato che consente una generazione veloce e parallela sia per la modalità testuale che per quella visiva. A differenza dei precedenti modelli di diffusione unificati addestrati da zero, Muddit integra forti prior visive da un backbone pre-addestrato per la generazione di immagini da testo con un decoder testuale leggero, permettendo una generazione multimodale flessibile e di alta qualità sotto un'architettura unificata. I risultati empirici dimostrano che Muddit raggiunge prestazioni competitive o superiori rispetto a modelli autoregressivi significativamente più grandi, sia in termini di qualità che di efficienza. Il lavoro evidenzia il potenziale della diffusione puramente discreta, quando equipaggiata con forti prior visive, come backbone scalabile ed efficace per la generazione unificata.
English
Unified generation models aim to handle diverse tasks across modalities --
such as text generation, image generation, and vision-language reasoning --
within a single architecture and decoding paradigm. Autoregressive unified
models suffer from slow inference due to sequential decoding, and
non-autoregressive unified models suffer from weak generalization due to
limited pretrained backbones. We introduce Muddit, a unified discrete diffusion
transformer that enables fast and parallel generation across both text and
image modalities. Unlike prior unified diffusion models trained from scratch,
Muddit integrates strong visual priors from a pretrained text-to-image backbone
with a lightweight text decoder, enabling flexible and high-quality multimodal
generation under a unified architecture. Empirical results show that Muddit
achieves competitive or superior performance compared to significantly larger
autoregressive models in both quality and efficiency. The work highlights the
potential of purely discrete diffusion, when equipped with strong visual
priors, as a scalable and effective backbone for unified generation.