ChatPaper.aiChatPaper

Muddit: 통합 이산 확산 모델을 통해 텍스트-이미지 변환을 넘어선 세대의 자유를 추구하다

Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model

May 29, 2025
저자: Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan
cs.AI

초록

통합 생성 모델은 단일 아키텍처와 디코딩 패러다임 내에서 텍스트 생성, 이미지 생성, 시각-언어 추론 등 다양한 모달리티의 작업을 처리하는 것을 목표로 합니다. 자기회귀적 통합 모델은 순차적 디코딩으로 인해 느린 추론 속도를 겪고 있으며, 비자기회귀적 통합 모델은 제한된 사전 학습된 백본으로 인해 약한 일반화 성능을 보입니다. 본 연구에서는 텍스트와 이미지 모달리티 모두에서 빠르고 병렬적인 생성을 가능하게 하는 통합 이산 확산 트랜스포머인 Muddit를 소개합니다. 기존의 처음부터 학습된 통합 확산 모델과 달리, Muddit는 사전 학습된 텍스트-이미지 백본에서 얻은 강력한 시각적 사전 지식을 경량 텍스트 디코더와 통합하여, 통합 아키텍처 하에서 유연하고 고품질의 다중모달 생성을 가능하게 합니다. 실험 결과는 Muddit가 훨씬 더 큰 자기회귀 모델과 비교하여 품질과 효율성 모두에서 경쟁력 있거나 우수한 성능을 달성함을 보여줍니다. 본 연구는 강력한 시각적 사전 지식이 결합된 순수 이산 확산이 통합 생성을 위한 확장 가능하고 효과적인 백본으로서의 잠재력을 강조합니다.
English
Unified generation models aim to handle diverse tasks across modalities -- such as text generation, image generation, and vision-language reasoning -- within a single architecture and decoding paradigm. Autoregressive unified models suffer from slow inference due to sequential decoding, and non-autoregressive unified models suffer from weak generalization due to limited pretrained backbones. We introduce Muddit, a unified discrete diffusion transformer that enables fast and parallel generation across both text and image modalities. Unlike prior unified diffusion models trained from scratch, Muddit integrates strong visual priors from a pretrained text-to-image backbone with a lightweight text decoder, enabling flexible and high-quality multimodal generation under a unified architecture. Empirical results show that Muddit achieves competitive or superior performance compared to significantly larger autoregressive models in both quality and efficiency. The work highlights the potential of purely discrete diffusion, when equipped with strong visual priors, as a scalable and effective backbone for unified generation.

Summary

AI-Generated Summary

PDF143May 30, 2025