ChatPaper.aiChatPaper

Muddit: Befreiung der Generation über Text-zu-Bild hinaus mit einem vereinheitlichten diskreten Diffusionsmodell

Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model

May 29, 2025
Autoren: Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan
cs.AI

Zusammenfassung

Einheitliche Generierungsmodelle zielen darauf ab, vielfältige Aufgaben über verschiedene Modalitäten hinweg – wie Textgenerierung, Bildgenerierung und visuell-sprachliche Schlussfolgerungen – innerhalb einer einzigen Architektur und eines einheitlichen Dekodierungsparadigmas zu bewältigen. Autoregressive einheitliche Modelle leiden unter langsamer Inferenz aufgrund sequenzieller Dekodierung, während nicht-autoregressive einheitliche Modelle aufgrund begrenzter vortrainierter Backbones unter schwacher Generalisierung leiden. Wir stellen Muddit vor, einen einheitlichen diskreten Diffusions-Transformer, der schnelle und parallele Generierung über Text- und Bildmodalitäten ermöglicht. Im Gegensatz zu früheren einheitlichen Diffusionsmodellen, die von Grund auf trainiert wurden, integriert Muddit starke visuelle Prioritäten aus einem vortrainierten Text-zu-Bild-Backbone mit einem leichtgewichtigen Textdekoder, wodurch flexible und hochwertige multimodale Generierung unter einer einheitlichen Architektur ermöglicht wird. Empirische Ergebnisse zeigen, dass Muddit im Vergleich zu deutlich größeren autoregressiven Modellen sowohl in Bezug auf die Qualität als auch die Effizienz wettbewerbsfähige oder überlegene Leistungen erzielt. Die Arbeit unterstreicht das Potenzial rein diskreter Diffusion, wenn sie mit starken visuellen Prioritäten ausgestattet ist, als skalierbare und effektive Grundlage für einheitliche Generierung.
English
Unified generation models aim to handle diverse tasks across modalities -- such as text generation, image generation, and vision-language reasoning -- within a single architecture and decoding paradigm. Autoregressive unified models suffer from slow inference due to sequential decoding, and non-autoregressive unified models suffer from weak generalization due to limited pretrained backbones. We introduce Muddit, a unified discrete diffusion transformer that enables fast and parallel generation across both text and image modalities. Unlike prior unified diffusion models trained from scratch, Muddit integrates strong visual priors from a pretrained text-to-image backbone with a lightweight text decoder, enabling flexible and high-quality multimodal generation under a unified architecture. Empirical results show that Muddit achieves competitive or superior performance compared to significantly larger autoregressive models in both quality and efficiency. The work highlights the potential of purely discrete diffusion, when equipped with strong visual priors, as a scalable and effective backbone for unified generation.

Summary

AI-Generated Summary

PDF143May 30, 2025