Muddit: Liberando la generación más allá del texto a imagen con un modelo unificado de difusión discreta
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model
May 29, 2025
Autores: Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan
cs.AI
Resumen
Los modelos de generación unificada buscan manejar diversas tareas a través de múltiples modalidades -- como la generación de texto, la generación de imágenes y el razonamiento visión-lenguaje -- dentro de una única arquitectura y paradigma de decodificación. Los modelos unificados autorregresivos sufren de inferencia lenta debido a la decodificación secuencial, mientras que los modelos unificados no autorregresivos presentan una generalización débil debido a backbones preentrenados limitados. Presentamos Muddit, un transformador de difusión discreta unificado que permite una generación rápida y paralela tanto en modalidades de texto como de imagen. A diferencia de los modelos de difusión unificados anteriores entrenados desde cero, Muddit integra fuertes prior visuales de un backbone preentrenado de texto a imagen con un decodificador de texto ligero, permitiendo una generación multimodal flexible y de alta calidad bajo una arquitectura unificada. Los resultados empíricos muestran que Muddit logra un rendimiento competitivo o superior en comparación con modelos autorregresivos significativamente más grandes, tanto en calidad como en eficiencia. Este trabajo destaca el potencial de la difusión puramente discreta, cuando está equipada con fuertes prior visuales, como un backbone escalable y efectivo para la generación unificada.
English
Unified generation models aim to handle diverse tasks across modalities --
such as text generation, image generation, and vision-language reasoning --
within a single architecture and decoding paradigm. Autoregressive unified
models suffer from slow inference due to sequential decoding, and
non-autoregressive unified models suffer from weak generalization due to
limited pretrained backbones. We introduce Muddit, a unified discrete diffusion
transformer that enables fast and parallel generation across both text and
image modalities. Unlike prior unified diffusion models trained from scratch,
Muddit integrates strong visual priors from a pretrained text-to-image backbone
with a lightweight text decoder, enabling flexible and high-quality multimodal
generation under a unified architecture. Empirical results show that Muddit
achieves competitive or superior performance compared to significantly larger
autoregressive models in both quality and efficiency. The work highlights the
potential of purely discrete diffusion, when equipped with strong visual
priors, as a scalable and effective backbone for unified generation.Summary
AI-Generated Summary