ChatPaper.aiChatPaper

Muddit: Liberando a Geração Além do Texto-para-Imagem com um Modelo Unificado de Difusão Discreta

Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model

May 29, 2025
Autores: Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan
cs.AI

Resumo

Modelos unificados de geração visam lidar com diversas tarefas entre modalidades -- como geração de texto, geração de imagens e raciocínio visão-linguagem -- dentro de uma única arquitetura e paradigma de decodificação. Modelos unificados autoregressivos sofrem com inferência lenta devido à decodificação sequencial, e modelos unificados não autoregressivos sofrem com generalização fraca devido a backbones pré-treinados limitados. Apresentamos o Muddit, um transformer de difusão discreta unificado que permite geração rápida e paralela em ambas as modalidades de texto e imagem. Diferente de modelos de difusão unificados anteriores treinados do zero, o Muddit integra fortes prioris visuais de um backbone pré-treinado de texto para imagem com um decodificador de texto leve, permitindo geração multimodal flexível e de alta qualidade sob uma arquitetura unificada. Resultados empíricos mostram que o Muddit alcança desempenho competitivo ou superior em comparação a modelos autoregressivos significativamente maiores, tanto em qualidade quanto em eficiência. O trabalho destaca o potencial da difusão puramente discreta, quando equipada com fortes prioris visuais, como um backbone escalável e eficaz para geração unificada.
English
Unified generation models aim to handle diverse tasks across modalities -- such as text generation, image generation, and vision-language reasoning -- within a single architecture and decoding paradigm. Autoregressive unified models suffer from slow inference due to sequential decoding, and non-autoregressive unified models suffer from weak generalization due to limited pretrained backbones. We introduce Muddit, a unified discrete diffusion transformer that enables fast and parallel generation across both text and image modalities. Unlike prior unified diffusion models trained from scratch, Muddit integrates strong visual priors from a pretrained text-to-image backbone with a lightweight text decoder, enabling flexible and high-quality multimodal generation under a unified architecture. Empirical results show that Muddit achieves competitive or superior performance compared to significantly larger autoregressive models in both quality and efficiency. The work highlights the potential of purely discrete diffusion, when equipped with strong visual priors, as a scalable and effective backbone for unified generation.
PDF143December 11, 2025