Difusión 2 en 1: Uniendo Generación y Percepción Densa con Modelos de Difusión
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models
November 7, 2024
Autores: Shuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang
cs.AI
Resumen
Más allá de la síntesis de imágenes de alta fidelidad, los modelos de difusión han exhibido recientemente resultados prometedores en tareas de percepción visual densa. Sin embargo, la mayoría del trabajo existente trata a los modelos de difusión como un componente independiente para tareas de percepción, empleándolos únicamente para aumentar datos predefinidos o como meros extractores de características. En contraste con estos esfuerzos aislados y por tanto subóptimos, presentamos un marco unificado y versátil basado en difusión, Diff-2-in-1, que puede manejar simultáneamente tanto la generación de datos multimodales como la percepción visual densa, mediante una explotación única del proceso de difusión-denoising. Dentro de este marco, mejoramos aún más la percepción visual discriminativa mediante la generación multimodal, utilizando la red de denoising para crear datos multimodales que reflejan la distribución del conjunto de entrenamiento original. Es importante destacar que Diff-2-in-1 optimiza la utilización de los datos diversos y fieles creados aprovechando un novedoso mecanismo de aprendizaje de auto-mejora. Evaluaciones experimentales exhaustivas validan la efectividad de nuestro marco, mostrando mejoras consistentes en el rendimiento a través de varios backbones discriminativos y una generación de datos multimodales de alta calidad caracterizada tanto por su realismo como por su utilidad.
English
Beyond high-fidelity image synthesis, diffusion models have recently
exhibited promising results in dense visual perception tasks. However, most
existing work treats diffusion models as a standalone component for perception
tasks, employing them either solely for off-the-shelf data augmentation or as
mere feature extractors. In contrast to these isolated and thus sub-optimal
efforts, we introduce a unified, versatile, diffusion-based framework,
Diff-2-in-1, that can simultaneously handle both multi-modal data generation
and dense visual perception, through a unique exploitation of the
diffusion-denoising process. Within this framework, we further enhance
discriminative visual perception via multi-modal generation, by utilizing the
denoising network to create multi-modal data that mirror the distribution of
the original training set. Importantly, Diff-2-in-1 optimizes the utilization
of the created diverse and faithful data by leveraging a novel self-improving
learning mechanism. Comprehensive experimental evaluations validate the
effectiveness of our framework, showcasing consistent performance improvements
across various discriminative backbones and high-quality multi-modal data
generation characterized by both realism and usefulness.