ChatPaper.aiChatPaper

Muddit: Bevrijding van Generatie Beyond Text-to-Image met een Verenigd Discreet Diffusiemodel

Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model

May 29, 2025
Auteurs: Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan
cs.AI

Samenvatting

Unified generation models streven ernaar diverse taken over verschillende modaliteiten te behandelen -- zoals tekstgeneratie, beeldgeneratie en visueel-taalkundig redeneren -- binnen een enkele architectuur en decodeerparadigma. Autoregressieve unified models lijden aan trage inferentie door sequentiële decodering, en niet-autoregressieve unified models hebben last van zwakke generalisatie door beperkte voorgetrainde backbones. Wij introduceren Muddit, een unified discrete diffusion transformer die snelle en parallelle generatie mogelijk maakt over zowel tekst- als beeldmodaliteiten. In tegenstelling tot eerdere unified diffusion models die vanaf nul worden getraind, integreert Muddit sterke visuele priors van een voorgetrainde tekst-naar-beeld-backbone met een lichtgewicht tekstdecoder, waardoor flexibele en hoogwaardige multimodale generatie mogelijk wordt onder een unified architectuur. Empirische resultaten tonen aan dat Muddit concurrerende of superieure prestaties behaalt in vergelijking met aanzienlijk grotere autoregressieve modellen, zowel in kwaliteit als efficiëntie. Het werk benadrukt het potentieel van puur discrete diffusie, wanneer uitgerust met sterke visuele priors, als een schaalbare en effectieve backbone voor unified generatie.
English
Unified generation models aim to handle diverse tasks across modalities -- such as text generation, image generation, and vision-language reasoning -- within a single architecture and decoding paradigm. Autoregressive unified models suffer from slow inference due to sequential decoding, and non-autoregressive unified models suffer from weak generalization due to limited pretrained backbones. We introduce Muddit, a unified discrete diffusion transformer that enables fast and parallel generation across both text and image modalities. Unlike prior unified diffusion models trained from scratch, Muddit integrates strong visual priors from a pretrained text-to-image backbone with a lightweight text decoder, enabling flexible and high-quality multimodal generation under a unified architecture. Empirical results show that Muddit achieves competitive or superior performance compared to significantly larger autoregressive models in both quality and efficiency. The work highlights the potential of purely discrete diffusion, when equipped with strong visual priors, as a scalable and effective backbone for unified generation.
PDF143May 30, 2025