MMDiff: Erweiterung von Diffusion Transformers für multimodale Generierung

Zusammenfassung

Diffusionstransformatoren haben bemerkenswerte generative Fähigkeiten gezeigt, jedoch werden die reichhaltigen Wahrnehmungsrepräsentationen, die entlang ihrer Entrauschungstrajektorie berechnet werden, verworfen, sobald der Inhalt erzeugt ist. Wir stellen MMDiff vor, ein Framework, das einen eingefrorenen Diffusionstransformator in ein multimodales generatives System verwandelt, das Bilder zusammen mit einer beliebigen Kombination dichter Wahrnehmungsmodalitäten unter Verwendung leichter Decoder-Köpfe erzeugt. Unsere zentrale Erkenntnis ist, dass Wahrnehmungsinformationen zeitlich entlang der Entrauschungstrajektorie verteilt sind und dass eine Mehrschritt-Feature-Fusion mit räumlich variierenden Aggregationsgewichten essenziell ist, wodurch die Ergebnisse der semantischen Segmentierung im Vergleich zur Ein-Schritt-Extraktion um bis zu 28,7 % mIoU verbessert werden. Darüber hinaus nutzen wir die konzeptgesteuerte Aufmerksamkeitsextraktion für eine interpretierbare räumliche Steuerung und zeigen, dass eingefrorene Diffusionsfeatures mit modernsten Encodern wie DINOv3 konkurrieren können und diese ergänzen. Indem wir nur leichte Decoder-Köpfe auf einem eingefrorenen Backbone trainieren, erzielen wir eine hohe Leistung bei der semantischen Segmentierung, der salienten Objekterkennung und der Tiefenschätzung und demonstrieren, dass dieses Framework eine effektive synthetische Datengenerierung im großen Maßstab ermöglicht.

English

Diffusion transformers have demonstrated remarkable generative capabilities, yet the rich perceptual representations computed across their denoising trajectory are discarded once the content is rendered. We present MMDiff, a framework that transforms a frozen diffusion transformer into a multi-modal generative system that jointly produces images alongside any combination of dense perceptual modalities using lightweight decoder heads. Our central finding is that perceptual information is temporally distributed along the denoising trajectory, and that multi-timestep feature fusion with spatially varying aggregation weights is essential, improving semantic segmentation results by up to 28.7% mIoU over single-timestep extraction. We further adopt concept-driven attention extraction for interpretable spatial guidance, and show that frozen diffusion features are competitive with and complementary to state-of-the-art encoders such as DINOv3. By training only lightweight decoder heads on a frozen backbone, we achieve strong performance in semantic segmentation, salient object detection, and depth estimation, and demonstrate that this framework enables effective synthetic data generation at scale.