ChatPaper.aiChatPaper

Diff-2-in-1: 생성과 조밀 인식을 연결하는 확산 모델

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

November 7, 2024
저자: Shuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang
cs.AI

초록

고품질 이미지 합성을 넘어 최근 확산 모델은 조밀 시각 인식 작업에서도 유망한 결과를 보여주고 있습니다. 그러나 대부분의 기존 연구는 확산 모델을 인식 작업을 위한 독립적인 구성 요소로 취급하며, 오프더셰lf 데이터 증강에만 활용하거나 단순한 특징 추출기로만 사용하고 있습니다. 이러한 단편적이고 따라서 차선책인 접근과 달리, 우리는 확산-제거 과정을 독창적으로 활용하여 다중 모달 데이터 생성과 조밀 시각 인식을 동시에 처리할 수 있는 통합적이고 다목적의 확산 기반 프레임워크인 Diff-2-in-1을 소개합니다. 이 프레임워크 내에서 우리는 제거 네트워크를 활용하여 원본 훈련 세트의 분포를 반영하는 다중 모달 데이터를 생성함으로써 판별적 시각 인식을 다중 모달 생성 통해 더욱 향상시킵니다. 중요한 것은, Diff-2-in-1이 새로운 자기 개선 학습 메커니즘을 활용하여 생성된 다양하고 정확한 데이터의 활용을 최적화한다는 점입니다. 포괄적인 실험 평가를 통해 우리 프레임워크의 효과성이 입증되었으며, 다양한 판별적 백본에서 일관된 성능 향상과 현실성과 유용성을 모두 갖춘 고품질 다중 모달 데이터 생성이 확인되었습니다.
English
Beyond high-fidelity image synthesis, diffusion models have recently exhibited promising results in dense visual perception tasks. However, most existing work treats diffusion models as a standalone component for perception tasks, employing them either solely for off-the-shelf data augmentation or as mere feature extractors. In contrast to these isolated and thus sub-optimal efforts, we introduce a unified, versatile, diffusion-based framework, Diff-2-in-1, that can simultaneously handle both multi-modal data generation and dense visual perception, through a unique exploitation of the diffusion-denoising process. Within this framework, we further enhance discriminative visual perception via multi-modal generation, by utilizing the denoising network to create multi-modal data that mirror the distribution of the original training set. Importantly, Diff-2-in-1 optimizes the utilization of the created diverse and faithful data by leveraging a novel self-improving learning mechanism. Comprehensive experimental evaluations validate the effectiveness of our framework, showcasing consistent performance improvements across various discriminative backbones and high-quality multi-modal data generation characterized by both realism and usefulness.
PDF132December 4, 2025