Difusión 2 en 1: Uniendo Generación y Percepción Densa con Modelos de Difusión

Resumen

Más allá de la síntesis de imágenes de alta fidelidad, los modelos de difusión han exhibido recientemente resultados prometedores en tareas de percepción visual densa. Sin embargo, la mayoría del trabajo existente trata a los modelos de difusión como un componente independiente para tareas de percepción, empleándolos únicamente para aumentar datos predefinidos o como meros extractores de características. En contraste con estos esfuerzos aislados y por tanto subóptimos, presentamos un marco unificado y versátil basado en difusión, Diff-2-in-1, que puede manejar simultáneamente tanto la generación de datos multimodales como la percepción visual densa, mediante una explotación única del proceso de difusión-denoising. Dentro de este marco, mejoramos aún más la percepción visual discriminativa mediante la generación multimodal, utilizando la red de denoising para crear datos multimodales que reflejan la distribución del conjunto de entrenamiento original. Es importante destacar que Diff-2-in-1 optimiza la utilización de los datos diversos y fieles creados aprovechando un novedoso mecanismo de aprendizaje de auto-mejora. Evaluaciones experimentales exhaustivas validan la efectividad de nuestro marco, mostrando mejoras consistentes en el rendimiento a través de varios backbones discriminativos y una generación de datos multimodales de alta calidad caracterizada tanto por su realismo como por su utilidad.

English

Beyond high-fidelity image synthesis, diffusion models have recently exhibited promising results in dense visual perception tasks. However, most existing work treats diffusion models as a standalone component for perception tasks, employing them either solely for off-the-shelf data augmentation or as mere feature extractors. In contrast to these isolated and thus sub-optimal efforts, we introduce a unified, versatile, diffusion-based framework, Diff-2-in-1, that can simultaneously handle both multi-modal data generation and dense visual perception, through a unique exploitation of the diffusion-denoising process. Within this framework, we further enhance discriminative visual perception via multi-modal generation, by utilizing the denoising network to create multi-modal data that mirror the distribution of the original training set. Importantly, Diff-2-in-1 optimizes the utilization of the created diverse and faithful data by leveraging a novel self-improving learning mechanism. Comprehensive experimental evaluations validate the effectiveness of our framework, showcasing consistent performance improvements across various discriminative backbones and high-quality multi-modal data generation characterized by both realism and usefulness.

Difusión 2 en 1: Uniendo Generación y Percepción Densa con Modelos de Difusión

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

Resumen

Support