Diff-2-in-1: Объединение генерации и плотного восприятия с помощью диффузионных моделей
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models
November 7, 2024
Авторы: Shuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang
cs.AI
Аннотация
Помимо синтеза изображений высокой четкости, диффузионные модели недавно продемонстрировали многообещающие результаты в задачах плотного визуального восприятия. Однако большинство существующих работ рассматривают диффузионные модели как самостоятельный компонент для задач восприятия, используя их либо исключительно для готового расширения данных, либо просто в качестве экстракторов признаков. В отличие от этих изолированных и, следовательно, неоптимальных подходов, мы представляем унифицированную, универсальную диффузионную структуру Diff-2-in-1, которая способна одновременно обрабатывать как многомодальную генерацию данных, так и плотное визуальное восприятие за счет уникального использования процесса диффузии-денойзинга. В рамках этой структуры мы дополнительно улучшаем дискриминативное визуальное восприятие с помощью многомодальной генерации, используя деннойзинг-сеть для создания многомодальных данных, отражающих распределение исходного обучающего набора. Важно, что Diff-2-in-1 оптимизирует использование созданных разнообразных и достоверных данных за счет применения нового механизма самообучающегося обучения. Комплексные экспериментальные оценки подтверждают эффективность нашей структуры, демонстрируя стабильное улучшение производительности на различных дискриминативных бэкбонах и генерацию качественных многомодальных данных, характеризующихся как реалистичностью, так и практической полезностью.
English
Beyond high-fidelity image synthesis, diffusion models have recently
exhibited promising results in dense visual perception tasks. However, most
existing work treats diffusion models as a standalone component for perception
tasks, employing them either solely for off-the-shelf data augmentation or as
mere feature extractors. In contrast to these isolated and thus sub-optimal
efforts, we introduce a unified, versatile, diffusion-based framework,
Diff-2-in-1, that can simultaneously handle both multi-modal data generation
and dense visual perception, through a unique exploitation of the
diffusion-denoising process. Within this framework, we further enhance
discriminative visual perception via multi-modal generation, by utilizing the
denoising network to create multi-modal data that mirror the distribution of
the original training set. Importantly, Diff-2-in-1 optimizes the utilization
of the created diverse and faithful data by leveraging a novel self-improving
learning mechanism. Comprehensive experimental evaluations validate the
effectiveness of our framework, showcasing consistent performance improvements
across various discriminative backbones and high-quality multi-modal data
generation characterized by both realism and usefulness.