Diff-2-in-1 : Relier génération et perception dense grâce aux modèles de diffusion

papers.abstract

Au-delà de la synthèse d'images haute fidélité, les modèles de diffusion ont récemment démontré des résultats prometteurs dans les tâches de perception visuelle dense. Cependant, la plupart des travaux existants traitent les modèles de diffusion comme un composant autonome pour les tâches de perception, les utilisant soit uniquement pour l'augmentation de données prêtes à l'emploi, soit comme de simples extracteurs de caractéristiques. Contrairement à ces efforts isolés et donc sous-optimaux, nous introduisons un cadre unifié et polyvalent basé sur la diffusion, Diff-2-in-1, capable de gérer simultanément la génération de données multimodales et la perception visuelle dense, grâce à une exploitation unique du processus de dédiffusion. Au sein de ce cadre, nous améliorons davantage la perception visuelle discriminative via la génération multimodale, en utilisant le réseau de dédiffusion pour créer des données multimodales qui reflètent la distribution de l'ensemble d'entraînement original. De manière cruciale, Diff-2-in-1 optimise l'utilisation des données créées, diversifiées et fidèles, en exploitant un mécanisme d'apprentissage auto-améliorant novateur. Des évaluations expérimentales approfondies valident l'efficacité de notre cadre, mettant en évidence des améliorations de performance constantes sur divers modèles discriminatifs et une génération de données multimodales de haute qualité, caractérisée à la fois par le réalisme et l'utilité.

English

Beyond high-fidelity image synthesis, diffusion models have recently exhibited promising results in dense visual perception tasks. However, most existing work treats diffusion models as a standalone component for perception tasks, employing them either solely for off-the-shelf data augmentation or as mere feature extractors. In contrast to these isolated and thus sub-optimal efforts, we introduce a unified, versatile, diffusion-based framework, Diff-2-in-1, that can simultaneously handle both multi-modal data generation and dense visual perception, through a unique exploitation of the diffusion-denoising process. Within this framework, we further enhance discriminative visual perception via multi-modal generation, by utilizing the denoising network to create multi-modal data that mirror the distribution of the original training set. Importantly, Diff-2-in-1 optimizes the utilization of the created diverse and faithful data by leveraging a novel self-improving learning mechanism. Comprehensive experimental evaluations validate the effectiveness of our framework, showcasing consistent performance improvements across various discriminative backbones and high-quality multi-modal data generation characterized by both realism and usefulness.

Diff-2-in-1 : Relier génération et perception dense grâce aux modèles de diffusion

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

papers.abstract

Support