Difusão 2-em-1: Conectando Geração e Percepção Densa com Modelos de Difusão

Resumo

Para além da síntese de imagens de alta fidelidade, os modelos de difusão têm demonstrado recentemente resultados promissores em tarefas de percepção visual densa. No entanto, a maior parte do trabalho existente trata os modelos de difusão como um componente autónomo para tarefas de percepção, empregando-os apenas para aumento de dados pré-existentes ou como meros extratores de características. Em contraste com estes esforços isolados e, portanto, subóptimos, nós introduzimos uma estrutura unificada e versátil baseada em difusão, a Diff-2-em-1, que pode lidar simultaneamente com a geração de dados multimodais e a percepção visual densa, através de uma exploração única do processo de difusão-desnaturação. Dentro desta estrutura, aprimoramos ainda mais a perceção visual discriminativa através da geração multimodal, utilizando a rede de desnaturação para criar dados multimodais que espelham a distribuição do conjunto de treino original. É importante destacar que a Diff-2-em-1 otimiza a utilização dos dados diversos e fiéis criados, aproveitando um novo mecanismo de aprendizagem de autoaprimoramento. Avaliações experimentais abrangentes validam a eficácia da nossa estrutura, demonstrando melhorias consistentes de desempenho em várias redes discriminativas de base e uma geração de dados multimodais de alta qualidade, caracterizada tanto pelo realismo como pela utilidade.

English

Beyond high-fidelity image synthesis, diffusion models have recently exhibited promising results in dense visual perception tasks. However, most existing work treats diffusion models as a standalone component for perception tasks, employing them either solely for off-the-shelf data augmentation or as mere feature extractors. In contrast to these isolated and thus sub-optimal efforts, we introduce a unified, versatile, diffusion-based framework, Diff-2-in-1, that can simultaneously handle both multi-modal data generation and dense visual perception, through a unique exploitation of the diffusion-denoising process. Within this framework, we further enhance discriminative visual perception via multi-modal generation, by utilizing the denoising network to create multi-modal data that mirror the distribution of the original training set. Importantly, Diff-2-in-1 optimizes the utilization of the created diverse and faithful data by leveraging a novel self-improving learning mechanism. Comprehensive experimental evaluations validate the effectiveness of our framework, showcasing consistent performance improvements across various discriminative backbones and high-quality multi-modal data generation characterized by both realism and usefulness.

Difusão 2-em-1: Conectando Geração e Percepção Densa com Modelos de Difusão

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

Resumo

Support