ChatPaper.aiChatPaper

Difusão 2-em-1: Conectando Geração e Percepção Densa com Modelos de Difusão

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

November 7, 2024
Autores: Shuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang
cs.AI

Resumo

Para além da síntese de imagens de alta fidelidade, os modelos de difusão têm demonstrado recentemente resultados promissores em tarefas de percepção visual densa. No entanto, a maior parte do trabalho existente trata os modelos de difusão como um componente autónomo para tarefas de percepção, empregando-os apenas para aumento de dados pré-existentes ou como meros extratores de características. Em contraste com estes esforços isolados e, portanto, subóptimos, nós introduzimos uma estrutura unificada e versátil baseada em difusão, a Diff-2-em-1, que pode lidar simultaneamente com a geração de dados multimodais e a percepção visual densa, através de uma exploração única do processo de difusão-desnaturação. Dentro desta estrutura, aprimoramos ainda mais a perceção visual discriminativa através da geração multimodal, utilizando a rede de desnaturação para criar dados multimodais que espelham a distribuição do conjunto de treino original. É importante destacar que a Diff-2-em-1 otimiza a utilização dos dados diversos e fiéis criados, aproveitando um novo mecanismo de aprendizagem de autoaprimoramento. Avaliações experimentais abrangentes validam a eficácia da nossa estrutura, demonstrando melhorias consistentes de desempenho em várias redes discriminativas de base e uma geração de dados multimodais de alta qualidade, caracterizada tanto pelo realismo como pela utilidade.
English
Beyond high-fidelity image synthesis, diffusion models have recently exhibited promising results in dense visual perception tasks. However, most existing work treats diffusion models as a standalone component for perception tasks, employing them either solely for off-the-shelf data augmentation or as mere feature extractors. In contrast to these isolated and thus sub-optimal efforts, we introduce a unified, versatile, diffusion-based framework, Diff-2-in-1, that can simultaneously handle both multi-modal data generation and dense visual perception, through a unique exploitation of the diffusion-denoising process. Within this framework, we further enhance discriminative visual perception via multi-modal generation, by utilizing the denoising network to create multi-modal data that mirror the distribution of the original training set. Importantly, Diff-2-in-1 optimizes the utilization of the created diverse and faithful data by leveraging a novel self-improving learning mechanism. Comprehensive experimental evaluations validate the effectiveness of our framework, showcasing consistent performance improvements across various discriminative backbones and high-quality multi-modal data generation characterized by both realism and usefulness.
PDF132December 4, 2025