画像拡散モデルによる創発的対応関係
Emergent Correspondence from Image Diffusion
June 6, 2023
著者: Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan
cs.AI
要旨
画像間の対応関係を見つけることは、コンピュータビジョンにおける基本的な問題です。本論文では、画像拡散モデルにおいて、明示的な教師なしで対応関係が自然に現れることを示します。私たちは、拡散ネットワークからこの暗黙的な知識を画像特徴量として抽出するシンプルな戦略、すなわちDIffusion FeaTures(DIFT)を提案し、それを用いて実画像間の対応関係を確立します。タスク固有のデータやアノテーションに対する追加のファインチューニングや教師なし学習なしで、DIFTはセマンティック、幾何学的、および時間的な対応関係の識別において、弱教師あり手法や競合する既存の特徴量を上回る性能を発揮します。特にセマンティック対応に関しては、Stable Diffusionから得られたDIFTは、難しいSPair-71kベンチマークにおいて、DINOとOpenCLIPをそれぞれ19ポイントと14ポイントの精度で上回ります。さらに、18のカテゴリのうち9つで最先端の教師あり手法を上回り、全体の性能でも同等の結果を達成します。プロジェクトページ: https://diffusionfeatures.github.io
English
Finding correspondences between images is a fundamental problem in computer
vision. In this paper, we show that correspondence emerges in image diffusion
models without any explicit supervision. We propose a simple strategy to
extract this implicit knowledge out of diffusion networks as image features,
namely DIffusion FeaTures (DIFT), and use them to establish correspondences
between real images. Without any additional fine-tuning or supervision on the
task-specific data or annotations, DIFT is able to outperform both
weakly-supervised methods and competitive off-the-shelf features in identifying
semantic, geometric, and temporal correspondences. Particularly for semantic
correspondence, DIFT from Stable Diffusion is able to outperform DINO and
OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k
benchmark. It even outperforms the state-of-the-art supervised methods on 9 out
of 18 categories while remaining on par for the overall performance. Project
page: https://diffusionfeatures.github.io