ChatPaper.aiChatPaper

Diff-2-in-1: Brückenschlag zwischen Generierung und dichter Wahrnehmung mit Diffusionsmodellen

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

November 7, 2024
papers.authors: Shuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang
cs.AI

papers.abstract

Über die hochwertige Bildsynthese hinaus haben Diffusionsmodelle kürzlich vielversprechende Ergebnisse bei dichten visuellen Wahrnehmungsaufgaben gezeigt. Die meisten bestehenden Arbeiten behandeln Diffusionsmodelle jedoch als eigenständige Komponente für Wahrnehmungsaufgaben, indem sie entweder ausschließlich für vorgefertigte Datenaugmentierung oder lediglich als Merkmalsextraktoren eingesetzt werden. Im Gegensatz zu diesen isolierten und somit suboptimalen Ansätzen stellen wir ein einheitliches, vielseitiges, diffusionsbasiertes Framework vor, Diff-2-in-1, das sowohl die multimodale Datengenerierung als auch die dichte visuelle Wahrnehmung gleichzeitig bewältigen kann, durch eine einzigartige Nutzung des Diffusions-Denoisings-Prozesses. Innerhalb dieses Frameworks verbessern wir die diskriminative visuelle Wahrnehmung weiter durch multimodale Generierung, indem wir das Denoising-Netzwerk nutzen, um multimodale Daten zu erzeugen, die die Verteilung des ursprünglichen Trainingsdatensatzes widerspiegeln. Wichtig ist, dass Diff-2-in-1 die Nutzung der erzeugten vielfältigen und treuen Daten durch einen neuartigen selbstverbessernden Lernmechanismus optimiert. Umfassende experimentelle Auswertungen bestätigen die Wirksamkeit unseres Frameworks und zeigen konsistente Leistungsverbesserungen über verschiedene diskriminative Backbones sowie hochwertige multimodale Datengenerierung, die durch Realismus und Nützlichkeit gekennzeichnet ist.
English
Beyond high-fidelity image synthesis, diffusion models have recently exhibited promising results in dense visual perception tasks. However, most existing work treats diffusion models as a standalone component for perception tasks, employing them either solely for off-the-shelf data augmentation or as mere feature extractors. In contrast to these isolated and thus sub-optimal efforts, we introduce a unified, versatile, diffusion-based framework, Diff-2-in-1, that can simultaneously handle both multi-modal data generation and dense visual perception, through a unique exploitation of the diffusion-denoising process. Within this framework, we further enhance discriminative visual perception via multi-modal generation, by utilizing the denoising network to create multi-modal data that mirror the distribution of the original training set. Importantly, Diff-2-in-1 optimizes the utilization of the created diverse and faithful data by leveraging a novel self-improving learning mechanism. Comprehensive experimental evaluations validate the effectiveness of our framework, showcasing consistent performance improvements across various discriminative backbones and high-quality multi-modal data generation characterized by both realism and usefulness.
PDF132December 4, 2025