Diff-2-in-1: Unire Generazione e Percezione Densa con i Modelli di Diffusione
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models
November 7, 2024
Autori: Shuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang
cs.AI
Abstract
Oltre alla sintesi di immagini ad alta fedeltà, i modelli di diffusione hanno recentemente dimostrato risultati promettenti in compiti di percezione visiva densa. Tuttavia, la maggior parte dei lavori esistenti tratta i modelli di diffusione come componenti isolati per i compiti di percezione, impiegandoli esclusivamente per l'aumento dei dati predefinito o come semplici estrattori di caratteristiche. A differenza di questi approcci isolati e quindi subottimali, introduciamo un framework unificato e versatile basato sulla diffusione, Diff-2-in-1, in grado di gestire simultaneamente sia la generazione di dati multimodali che la percezione visiva densa, attraverso un utilizzo unico del processo di diffusione-denoising. All'interno di questo framework, miglioriamo ulteriormente la percezione visiva discriminativa tramite la generazione multimodale, sfruttando la rete di denoising per creare dati multimodali che rispecchiano la distribuzione del set di addestramento originale. È importante sottolineare che Diff-2-in-1 ottimizza l'utilizzo dei dati creati, diversificati e fedeli, sfruttando un nuovo meccanismo di apprendimento di auto-miglioramento. Valutazioni sperimentali complete convalidano l'efficacia del nostro framework, dimostrando miglioramenti prestazionali consistenti su vari backbone discriminativi e una generazione di dati multimodali di alta qualità caratterizzata sia da realismo che da utilità.
English
Beyond high-fidelity image synthesis, diffusion models have recently
exhibited promising results in dense visual perception tasks. However, most
existing work treats diffusion models as a standalone component for perception
tasks, employing them either solely for off-the-shelf data augmentation or as
mere feature extractors. In contrast to these isolated and thus sub-optimal
efforts, we introduce a unified, versatile, diffusion-based framework,
Diff-2-in-1, that can simultaneously handle both multi-modal data generation
and dense visual perception, through a unique exploitation of the
diffusion-denoising process. Within this framework, we further enhance
discriminative visual perception via multi-modal generation, by utilizing the
denoising network to create multi-modal data that mirror the distribution of
the original training set. Importantly, Diff-2-in-1 optimizes the utilization
of the created diverse and faithful data by leveraging a novel self-improving
learning mechanism. Comprehensive experimental evaluations validate the
effectiveness of our framework, showcasing consistent performance improvements
across various discriminative backbones and high-quality multi-modal data
generation characterized by both realism and usefulness.