MMDiff: Расширение диффузионных трансформеров для мультимодальной генерации

Аннотация

Диффузионные трансформеры продемонстрировали выдающиеся генеративные способности, однако богатые перцептивные представления, вычисляемые на протяжении их траектории шумоподавления, отбрасываются после того, как контент сгенерирован. Мы представляем MMDiff — фреймворк, который превращает замороженный диффузионный трансформер в мультимодальную генеративную систему, совместно создающую изображения вместе с любой комбинацией плотных перцептивных модальностей с использованием легковесных головок декодера. Наше ключевое открытие заключается в том, что перцептивная информация распределена во времени вдоль траектории шумоподавления, а многошаговое слияние признаков с пространственно-варьируемыми весами агрегации является необходимым, улучшая результаты семантической сегментации на величину до 28,7% mIoU по сравнению с извлечением из одного временного шага. Далее мы применяем извлечение внимания на основе концепций для интерпретируемого пространственного управления и показываем, что замороженные диффузионные признаки конкурентоспособны и дополняют современные кодировщики, такие как DINOv3. Обучая только легковесные головки декодера на замороженной базовой модели, мы достигаем высоких результатов в семантической сегментации, обнаружении значимых объектов и оценке глубины, а также демонстрируем, что данный фреймворк обеспечивает эффективную генерацию синтетических данных в масштабе.

English

Diffusion transformers have demonstrated remarkable generative capabilities, yet the rich perceptual representations computed across their denoising trajectory are discarded once the content is rendered. We present MMDiff, a framework that transforms a frozen diffusion transformer into a multi-modal generative system that jointly produces images alongside any combination of dense perceptual modalities using lightweight decoder heads. Our central finding is that perceptual information is temporally distributed along the denoising trajectory, and that multi-timestep feature fusion with spatially varying aggregation weights is essential, improving semantic segmentation results by up to 28.7% mIoU over single-timestep extraction. We further adopt concept-driven attention extraction for interpretable spatial guidance, and show that frozen diffusion features are competitive with and complementary to state-of-the-art encoders such as DINOv3. By training only lightweight decoder heads on a frozen backbone, we achieve strong performance in semantic segmentation, salient object detection, and depth estimation, and demonstrate that this framework enables effective synthetic data generation at scale.