ChatPaper.aiChatPaper

Muddit: Liberando la generación más allá del texto a imagen con un modelo unificado de difusión discreta

Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model

May 29, 2025
Autores: Qingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan
cs.AI

Resumen

Los modelos de generación unificada buscan manejar diversas tareas a través de múltiples modalidades -- como la generación de texto, la generación de imágenes y el razonamiento visión-lenguaje -- dentro de una única arquitectura y paradigma de decodificación. Los modelos unificados autorregresivos sufren de inferencia lenta debido a la decodificación secuencial, mientras que los modelos unificados no autorregresivos presentan una generalización débil debido a backbones preentrenados limitados. Presentamos Muddit, un transformador de difusión discreta unificado que permite una generación rápida y paralela tanto en modalidades de texto como de imagen. A diferencia de los modelos de difusión unificados anteriores entrenados desde cero, Muddit integra fuertes prior visuales de un backbone preentrenado de texto a imagen con un decodificador de texto ligero, permitiendo una generación multimodal flexible y de alta calidad bajo una arquitectura unificada. Los resultados empíricos muestran que Muddit logra un rendimiento competitivo o superior en comparación con modelos autorregresivos significativamente más grandes, tanto en calidad como en eficiencia. Este trabajo destaca el potencial de la difusión puramente discreta, cuando está equipada con fuertes prior visuales, como un backbone escalable y efectivo para la generación unificada.
English
Unified generation models aim to handle diverse tasks across modalities -- such as text generation, image generation, and vision-language reasoning -- within a single architecture and decoding paradigm. Autoregressive unified models suffer from slow inference due to sequential decoding, and non-autoregressive unified models suffer from weak generalization due to limited pretrained backbones. We introduce Muddit, a unified discrete diffusion transformer that enables fast and parallel generation across both text and image modalities. Unlike prior unified diffusion models trained from scratch, Muddit integrates strong visual priors from a pretrained text-to-image backbone with a lightweight text decoder, enabling flexible and high-quality multimodal generation under a unified architecture. Empirical results show that Muddit achieves competitive or superior performance compared to significantly larger autoregressive models in both quality and efficiency. The work highlights the potential of purely discrete diffusion, when equipped with strong visual priors, as a scalable and effective backbone for unified generation.

Summary

AI-Generated Summary

PDF143May 30, 2025