Diff-2-in-1: Unire Generazione e Percezione Densa con i Modelli di Diffusione

Abstract

Oltre alla sintesi di immagini ad alta fedeltà, i modelli di diffusione hanno recentemente dimostrato risultati promettenti in compiti di percezione visiva densa. Tuttavia, la maggior parte dei lavori esistenti tratta i modelli di diffusione come componenti isolati per i compiti di percezione, impiegandoli esclusivamente per l'aumento dei dati predefinito o come semplici estrattori di caratteristiche. A differenza di questi approcci isolati e quindi subottimali, introduciamo un framework unificato e versatile basato sulla diffusione, Diff-2-in-1, in grado di gestire simultaneamente sia la generazione di dati multimodali che la percezione visiva densa, attraverso un utilizzo unico del processo di diffusione-denoising. All'interno di questo framework, miglioriamo ulteriormente la percezione visiva discriminativa tramite la generazione multimodale, sfruttando la rete di denoising per creare dati multimodali che rispecchiano la distribuzione del set di addestramento originale. È importante sottolineare che Diff-2-in-1 ottimizza l'utilizzo dei dati creati, diversificati e fedeli, sfruttando un nuovo meccanismo di apprendimento di auto-miglioramento. Valutazioni sperimentali complete convalidano l'efficacia del nostro framework, dimostrando miglioramenti prestazionali consistenti su vari backbone discriminativi e una generazione di dati multimodali di alta qualità caratterizzata sia da realismo che da utilità.

English

Beyond high-fidelity image synthesis, diffusion models have recently exhibited promising results in dense visual perception tasks. However, most existing work treats diffusion models as a standalone component for perception tasks, employing them either solely for off-the-shelf data augmentation or as mere feature extractors. In contrast to these isolated and thus sub-optimal efforts, we introduce a unified, versatile, diffusion-based framework, Diff-2-in-1, that can simultaneously handle both multi-modal data generation and dense visual perception, through a unique exploitation of the diffusion-denoising process. Within this framework, we further enhance discriminative visual perception via multi-modal generation, by utilizing the denoising network to create multi-modal data that mirror the distribution of the original training set. Importantly, Diff-2-in-1 optimizes the utilization of the created diverse and faithful data by leveraging a novel self-improving learning mechanism. Comprehensive experimental evaluations validate the effectiveness of our framework, showcasing consistent performance improvements across various discriminative backbones and high-quality multi-modal data generation characterized by both realism and usefulness.

Diff-2-in-1: Unire Generazione e Percezione Densa con i Modelli di Diffusione

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

Abstract

Support