Muddit: テキストから画像を超えた生成を解き放つ - 統一離散拡散モデルによるアプローチ
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model
May 29, 2025
著者: Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan
cs.AI
要旨
統一生成モデルは、テキスト生成、画像生成、視覚言語推論など、様々なモダリティにわたるタスクを単一のアーキテクチャとデコードパラダイムで処理することを目指しています。自己回帰型の統一モデルは逐次デコードによる推論の遅さに悩まされ、非自己回帰型の統一モデルは事前学習済みバックボーンの制約による弱い汎化性能に悩まされています。本研究では、テキストと画像の両モダリティにおいて高速かつ並列生成を可能にする統一離散拡散トランスフォーマー「Muddit」を提案します。従来の統一拡散モデルとは異なり、Mudditは事前学習済みのテキストから画像へのバックボーンから得られた強力な視覚的プライアを軽量なテキストデコーダと統合し、統一アーキテクチャの下で柔軟かつ高品質なマルチモーダル生成を実現します。実験結果から、Mudditは品質と効率の両面において、はるかに大規模な自己回帰モデルと比較しても競争力のある、あるいは優れた性能を発揮することが示されています。本研究は、強力な視覚的プライアを備えた純粋な離散拡散が、統一生成のためのスケーラブルで効果的なバックボーンとしての可能性を強調しています。
English
Unified generation models aim to handle diverse tasks across modalities --
such as text generation, image generation, and vision-language reasoning --
within a single architecture and decoding paradigm. Autoregressive unified
models suffer from slow inference due to sequential decoding, and
non-autoregressive unified models suffer from weak generalization due to
limited pretrained backbones. We introduce Muddit, a unified discrete diffusion
transformer that enables fast and parallel generation across both text and
image modalities. Unlike prior unified diffusion models trained from scratch,
Muddit integrates strong visual priors from a pretrained text-to-image backbone
with a lightweight text decoder, enabling flexible and high-quality multimodal
generation under a unified architecture. Empirical results show that Muddit
achieves competitive or superior performance compared to significantly larger
autoregressive models in both quality and efficiency. The work highlights the
potential of purely discrete diffusion, when equipped with strong visual
priors, as a scalable and effective backbone for unified generation.Summary
AI-Generated Summary