MMDiff: Uitbreiding van diffusietransformatoren voor multimodale generatie

Samenvatting

Diffusietransformatoren hebben opmerkelijke generatieve vermogens getoond, maar de rijke perceptuele representaties die tijdens hun ontruisingsbaan worden berekend, worden weggegooid zodra de inhoud is weergegeven. Wij presenteren MMDiff, een raamwerk dat een bevroren diffusietransformator omvormt tot een multi-modaal generatief systeem dat gezamenlijk afbeeldingen produceert, naast elke combinatie van dichte perceptuele modaliteiten, met behulp van lichtgewicht decoderkoppen. Onze centrale bevinding is dat perceptuele informatie temporeel verdeeld is over de ontruisingsbaan, en dat multi-tijdstip kenmerkfusie met ruimtelijk variërende aggregatiegewichten essentieel is, wat semantische segmentatieresultaten met tot 28,7% mIoU verbetert ten opzichte van extractie op een enkel tijdstip. Verder hanteren wij conceptgestuurde aandachtextractie voor interpreteerbare ruimtelijke sturing, en tonen aan dat bevroren diffusiekenmerken concurrerend en complementair zijn aan state-of-the-art encoders zoals DINOv3. Door alleen lichtgewicht decoderkoppen te trainen op een bevroren ruggengraat, bereiken wij sterke prestaties in semantische segmentatie, opvallende objectdetectie en diepteschatting, en demonstreren wij dat dit raamwerk effectieve synthetische datageneratie op schaal mogelijk maakt.

English

Diffusion transformers have demonstrated remarkable generative capabilities, yet the rich perceptual representations computed across their denoising trajectory are discarded once the content is rendered. We present MMDiff, a framework that transforms a frozen diffusion transformer into a multi-modal generative system that jointly produces images alongside any combination of dense perceptual modalities using lightweight decoder heads. Our central finding is that perceptual information is temporally distributed along the denoising trajectory, and that multi-timestep feature fusion with spatially varying aggregation weights is essential, improving semantic segmentation results by up to 28.7% mIoU over single-timestep extraction. We further adopt concept-driven attention extraction for interpretable spatial guidance, and show that frozen diffusion features are competitive with and complementary to state-of-the-art encoders such as DINOv3. By training only lightweight decoder heads on a frozen backbone, we achieve strong performance in semantic segmentation, salient object detection, and depth estimation, and demonstrate that this framework enables effective synthetic data generation at scale.