Diff-2-in-1 : Relier génération et perception dense grâce aux modèles de diffusion
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models
November 7, 2024
papers.authors: Shuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang
cs.AI
papers.abstract
Au-delà de la synthèse d'images haute fidélité, les modèles de diffusion ont récemment démontré des résultats prometteurs dans les tâches de perception visuelle dense. Cependant, la plupart des travaux existants traitent les modèles de diffusion comme un composant autonome pour les tâches de perception, les utilisant soit uniquement pour l'augmentation de données prêtes à l'emploi, soit comme de simples extracteurs de caractéristiques. Contrairement à ces efforts isolés et donc sous-optimaux, nous introduisons un cadre unifié et polyvalent basé sur la diffusion, Diff-2-in-1, capable de gérer simultanément la génération de données multimodales et la perception visuelle dense, grâce à une exploitation unique du processus de dédiffusion. Au sein de ce cadre, nous améliorons davantage la perception visuelle discriminative via la génération multimodale, en utilisant le réseau de dédiffusion pour créer des données multimodales qui reflètent la distribution de l'ensemble d'entraînement original. De manière cruciale, Diff-2-in-1 optimise l'utilisation des données créées, diversifiées et fidèles, en exploitant un mécanisme d'apprentissage auto-améliorant novateur. Des évaluations expérimentales approfondies valident l'efficacité de notre cadre, mettant en évidence des améliorations de performance constantes sur divers modèles discriminatifs et une génération de données multimodales de haute qualité, caractérisée à la fois par le réalisme et l'utilité.
English
Beyond high-fidelity image synthesis, diffusion models have recently
exhibited promising results in dense visual perception tasks. However, most
existing work treats diffusion models as a standalone component for perception
tasks, employing them either solely for off-the-shelf data augmentation or as
mere feature extractors. In contrast to these isolated and thus sub-optimal
efforts, we introduce a unified, versatile, diffusion-based framework,
Diff-2-in-1, that can simultaneously handle both multi-modal data generation
and dense visual perception, through a unique exploitation of the
diffusion-denoising process. Within this framework, we further enhance
discriminative visual perception via multi-modal generation, by utilizing the
denoising network to create multi-modal data that mirror the distribution of
the original training set. Importantly, Diff-2-in-1 optimizes the utilization
of the created diverse and faithful data by leveraging a novel self-improving
learning mechanism. Comprehensive experimental evaluations validate the
effectiveness of our framework, showcasing consistent performance improvements
across various discriminative backbones and high-quality multi-modal data
generation characterized by both realism and usefulness.