MMDiff: Extendiendo los Transformers de Difusión para la Generación Multimodal

Resumen

Los transformadores de difusión han demostrado notables capacidades generativas, sin embargo, las ricas representaciones perceptuales calculadas a lo largo de su trayectoria de eliminación de ruido se descartan una vez que se genera el contenido. Presentamos MMDiff, un marco que transforma un transformador de difusión congelado en un sistema generativo multimodal que produce conjuntamente imágenes junto con cualquier combinación de modalidades perceptuales densas utilizando cabezas decodificadoras ligeras. Nuestro hallazgo central es que la información perceptual se distribuye temporalmente a lo largo de la trayectoria de eliminación de ruido, y que la fusión de características en múltiples pasos temporales con pesos de agregación que varían espacialmente es esencial, mejorando los resultados de segmentación semántica hasta en un 28,7% de mIoU en comparación con la extracción en un único paso temporal. Además, adoptamos la extracción de atención basada en conceptos para una guía espacial interpretable, y mostramos que las características del modelo de difusión congelado son competitivas con codificadores de última generación como DINOv3 y complementarias a ellos. Al entrenar únicamente cabezas decodificadoras ligeras sobre una columna vertebral congelada, logramos un rendimiento sólido en segmentación semántica, detección de objetos salientes y estimación de profundidad, y demostramos que este marco permite una generación efectiva de datos sintéticos a gran escala.

English

Diffusion transformers have demonstrated remarkable generative capabilities, yet the rich perceptual representations computed across their denoising trajectory are discarded once the content is rendered. We present MMDiff, a framework that transforms a frozen diffusion transformer into a multi-modal generative system that jointly produces images alongside any combination of dense perceptual modalities using lightweight decoder heads. Our central finding is that perceptual information is temporally distributed along the denoising trajectory, and that multi-timestep feature fusion with spatially varying aggregation weights is essential, improving semantic segmentation results by up to 28.7% mIoU over single-timestep extraction. We further adopt concept-driven attention extraction for interpretable spatial guidance, and show that frozen diffusion features are competitive with and complementary to state-of-the-art encoders such as DINOv3. By training only lightweight decoder heads on a frozen backbone, we achieve strong performance in semantic segmentation, salient object detection, and depth estimation, and demonstrate that this framework enables effective synthetic data generation at scale.