Corrispondenza emergente dalla diffusione di immagini
Emergent Correspondence from Image Diffusion
June 6, 2023
Autori: Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan
cs.AI
Abstract
Trovare corrispondenze tra immagini è un problema fondamentale nella visione artificiale. In questo articolo, dimostriamo che la corrispondenza emerge nei modelli di diffusione di immagini senza alcuna supervisione esplicita. Proponiamo una strategia semplice per estrarre questa conoscenza implicita dalle reti di diffusione come caratteristiche immagine, denominate DIffusion FeaTures (DIFT), e le utilizziamo per stabilire corrispondenze tra immagini reali. Senza alcuna ulteriore messa a punto o supervisione sui dati o annotazioni specifiche del task, DIFT è in grado di superare sia i metodi debolmente supervisionati che le caratteristiche competitive preesistenti nell'identificare corrispondenze semantiche, geometriche e temporali. In particolare per la corrispondenza semantica, DIFT da Stable Diffusion è in grado di superare DINO e OpenCLIP rispettivamente di 19 e 14 punti di accuratezza sul benchmark impegnativo SPair-71k. Addirittura supera i metodi supervisionati all'avanguardia in 9 su 18 categorie, rimanendo in linea con le prestazioni complessive. Pagina del progetto: https://diffusionfeatures.github.io
English
Finding correspondences between images is a fundamental problem in computer
vision. In this paper, we show that correspondence emerges in image diffusion
models without any explicit supervision. We propose a simple strategy to
extract this implicit knowledge out of diffusion networks as image features,
namely DIffusion FeaTures (DIFT), and use them to establish correspondences
between real images. Without any additional fine-tuning or supervision on the
task-specific data or annotations, DIFT is able to outperform both
weakly-supervised methods and competitive off-the-shelf features in identifying
semantic, geometric, and temporal correspondences. Particularly for semantic
correspondence, DIFT from Stable Diffusion is able to outperform DINO and
OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k
benchmark. It even outperforms the state-of-the-art supervised methods on 9 out
of 18 categories while remaining on par for the overall performance. Project
page: https://diffusionfeatures.github.io