MMDiff: Estendendo Transformers de Difusão para Geração Multimodal

Resumo

Transformadores de difusão demonstraram capacidades generativas notáveis, no entanto, as ricas representações perceptuais computadas ao longo de sua trajetória de eliminação de ruído são descartadas assim que o conteúdo é renderizado. Apresentamos o MMDiff, uma estrutura que transforma um transformador de difusão congelado em um sistema generativo multimodal que produz conjuntamente imagens juntamente com qualquer combinação de modalidades perceptuais densas usando cabeças de decodificador leves. Nossa descoberta central é que a informação perceptual está distribuída temporalmente ao longo da trajetória de eliminação de ruído, e que a fusão de características em múltiplos intervalos de tempo com pesos de agregação com variação espacial é essencial, melhorando os resultados de segmentação semântica em até 28,7% mIoU em relação à extração em um único intervalo de tempo. Adotamos ainda a extração de atenção orientada por conceitos para orientação espacial interpretável, e mostramos que as características de difusão congeladas são competitivas e complementares a codificadores de última geração, como o DINOv3. Ao treinar apenas cabeças de decodificador leves em um backbone congelado, alcançamos um desempenho robusto em segmentação semântica, detecção de objetos salientes e estimativa de profundidade, e demonstramos que essa estrutura possibilita a geração eficaz de dados sintéticos em escala.

English

Diffusion transformers have demonstrated remarkable generative capabilities, yet the rich perceptual representations computed across their denoising trajectory are discarded once the content is rendered. We present MMDiff, a framework that transforms a frozen diffusion transformer into a multi-modal generative system that jointly produces images alongside any combination of dense perceptual modalities using lightweight decoder heads. Our central finding is that perceptual information is temporally distributed along the denoising trajectory, and that multi-timestep feature fusion with spatially varying aggregation weights is essential, improving semantic segmentation results by up to 28.7% mIoU over single-timestep extraction. We further adopt concept-driven attention extraction for interpretable spatial guidance, and show that frozen diffusion features are competitive with and complementary to state-of-the-art encoders such as DINOv3. By training only lightweight decoder heads on a frozen backbone, we achieve strong performance in semantic segmentation, salient object detection, and depth estimation, and demonstrate that this framework enables effective synthetic data generation at scale.