MMDiff : Extension des Transformers de Diffusion pour la Génération Multi-Modale

Résumé

Les transformers de diffusion ont démontré des capacités génératives remarquables, mais les riches représentations perceptuelles calculées tout au long de leur trajectoire de débruitage sont écartées une fois le contenu rendu. Nous présentons MMDiff, un framework qui transforme un transformer de diffusion figé en un système génératif multimodal produisant conjointement des images avec toute combinaison de modalités perceptuelles denses, en utilisant des têtes de décodeur légères. Notre résultat central est que l'information perceptuelle est distribuée temporellement le long de la trajectoire de débruitage, et que la fusion de caractéristiques multi-pas temporels avec des poids d'agrégation variant spatialement est essentielle, améliorant les résultats de segmentation sémantique jusqu'à 28,7 % de mIoU par rapport à l'extraction sur un seul pas temporel. Nous adoptons en outre l'extraction d'attention guidée par des concepts pour un guidage spatial interprétable, et montrons que les caractéristiques de diffusion figées sont compétitives avec les encodeurs de pointe tels que DINOv3 et leur sont complémentaires. En n'entraînant que des têtes de décodeur légères sur un backbone figé, nous obtenons de bonnes performances en segmentation sémantique, détection d'objets saillants et estimation de profondeur, et nous démontrons que ce framework permet une génération efficace de données synthétiques à grande échelle.

English

Diffusion transformers have demonstrated remarkable generative capabilities, yet the rich perceptual representations computed across their denoising trajectory are discarded once the content is rendered. We present MMDiff, a framework that transforms a frozen diffusion transformer into a multi-modal generative system that jointly produces images alongside any combination of dense perceptual modalities using lightweight decoder heads. Our central finding is that perceptual information is temporally distributed along the denoising trajectory, and that multi-timestep feature fusion with spatially varying aggregation weights is essential, improving semantic segmentation results by up to 28.7% mIoU over single-timestep extraction. We further adopt concept-driven attention extraction for interpretable spatial guidance, and show that frozen diffusion features are competitive with and complementary to state-of-the-art encoders such as DINOv3. By training only lightweight decoder heads on a frozen backbone, we achieve strong performance in semantic segmentation, salient object detection, and depth estimation, and demonstrate that this framework enables effective synthetic data generation at scale.