Diff-2-in-1: 拡散モデルによる生成と高密度知覚の橋渡し
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models
November 7, 2024
著者: Shuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang
cs.AI
要旨
高忠実度な画像合成を超えて、拡散モデルは最近、密な視覚認識タスクにおいて有望な結果を示しています。しかし、既存の研究の多くは、拡散モデルを認識タスクのための独立したコンポーネントとして扱い、それらを単に既製のデータ拡張ツールとして使用するか、あるいは単なる特徴抽出器として使用しています。これらの孤立した、したがって最適とは言えない取り組みとは対照的に、我々は、拡散-ノイズ除去プロセスを独自に活用することで、多モーダルデータ生成と密な視覚認識の両方を同時に扱える統一された汎用的な拡散ベースのフレームワーク、Diff-2-in-1を提案します。このフレームワーク内で、我々はさらに、ノイズ除去ネットワークを利用して、元のトレーニングセットの分布を反映する多モーダルデータを作成することで、識別的視覚認識を強化します。重要なことに、Diff-2-in-1は、新たな自己改善学習メカニズムを活用することで、作成された多様で忠実なデータの利用を最適化します。包括的な実験的評価により、我々のフレームワークの有効性が検証され、様々な識別的バックボーンにわたる一貫した性能向上と、現実性と有用性を兼ね備えた高品質な多モーダルデータ生成が示されています。
English
Beyond high-fidelity image synthesis, diffusion models have recently
exhibited promising results in dense visual perception tasks. However, most
existing work treats diffusion models as a standalone component for perception
tasks, employing them either solely for off-the-shelf data augmentation or as
mere feature extractors. In contrast to these isolated and thus sub-optimal
efforts, we introduce a unified, versatile, diffusion-based framework,
Diff-2-in-1, that can simultaneously handle both multi-modal data generation
and dense visual perception, through a unique exploitation of the
diffusion-denoising process. Within this framework, we further enhance
discriminative visual perception via multi-modal generation, by utilizing the
denoising network to create multi-modal data that mirror the distribution of
the original training set. Importantly, Diff-2-in-1 optimizes the utilization
of the created diverse and faithful data by leveraging a novel self-improving
learning mechanism. Comprehensive experimental evaluations validate the
effectiveness of our framework, showcasing consistent performance improvements
across various discriminative backbones and high-quality multi-modal data
generation characterized by both realism and usefulness.