Muddit : Libérer la génération au-delà du texte-à-image avec un modèle de diffusion discrète unifié
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model
May 29, 2025
Auteurs: Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan
cs.AI
Résumé
Les modèles de génération unifiés visent à traiter des tâches variées à travers différentes modalités -- telles que la génération de texte, la génération d'images et le raisonnement vision-langage -- au sein d'une architecture unique et d'un paradigme de décodage commun. Les modèles unifiés autorégressifs souffrent d'une inférence lente en raison du décodage séquentiel, tandis que les modèles unifiés non autorégressifs présentent une généralisation faible due à des architectures pré-entraînées limitées. Nous présentons Muddit, un transformeur de diffusion discrète unifié qui permet une génération rapide et parallèle à la fois pour les modalités texte et image. Contrairement aux modèles de diffusion unifiés précédents entraînés à partir de zéro, Muddit intègre des connaissances visuelles solides provenant d'une architecture pré-entraînée de génération texte-image avec un décodeur de texte léger, permettant une génération multimodale flexible et de haute qualité sous une architecture unifiée. Les résultats empiriques montrent que Muddit atteint des performances compétitives ou supérieures par rapport à des modèles autorégressifs nettement plus grands, tant en termes de qualité que d'efficacité. Ce travail met en lumière le potentiel de la diffusion purement discrète, lorsqu'elle est équipée de connaissances visuelles solides, en tant qu'architecture scalable et efficace pour la génération unifiée.
English
Unified generation models aim to handle diverse tasks across modalities --
such as text generation, image generation, and vision-language reasoning --
within a single architecture and decoding paradigm. Autoregressive unified
models suffer from slow inference due to sequential decoding, and
non-autoregressive unified models suffer from weak generalization due to
limited pretrained backbones. We introduce Muddit, a unified discrete diffusion
transformer that enables fast and parallel generation across both text and
image modalities. Unlike prior unified diffusion models trained from scratch,
Muddit integrates strong visual priors from a pretrained text-to-image backbone
with a lightweight text decoder, enabling flexible and high-quality multimodal
generation under a unified architecture. Empirical results show that Muddit
achieves competitive or superior performance compared to significantly larger
autoregressive models in both quality and efficiency. The work highlights the
potential of purely discrete diffusion, when equipped with strong visual
priors, as a scalable and effective backbone for unified generation.Summary
AI-Generated Summary