Correspondencia emergente a partir de difusión de imágenes
Emergent Correspondence from Image Diffusion
June 6, 2023
Autores: Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan
cs.AI
Resumen
Encontrar correspondencias entre imágenes es un problema fundamental en visión por computadora. En este artículo, demostramos que la correspondencia emerge en los modelos de difusión de imágenes sin ninguna supervisión explícita. Proponemos una estrategia simple para extraer este conocimiento implícito de las redes de difusión como características de imagen, denominadas DIffusion FeaTures (DIFT), y las utilizamos para establecer correspondencias entre imágenes reales. Sin necesidad de ajustes adicionales ni supervisión en datos o anotaciones específicas de la tarea, DIFT es capaz de superar tanto a métodos débilmente supervisados como a características competitivas preexistentes en la identificación de correspondencias semánticas, geométricas y temporales. Específicamente para la correspondencia semántica, DIFT de Stable Diffusion supera a DINO y OpenCLIP en 19 y 14 puntos de precisión respectivamente en el desafiante benchmark SPair-71k. Incluso supera a los métodos supervisados de última generación en 9 de 18 categorías, manteniéndose a la par en el rendimiento general. Página del proyecto: https://diffusionfeatures.github.io
English
Finding correspondences between images is a fundamental problem in computer
vision. In this paper, we show that correspondence emerges in image diffusion
models without any explicit supervision. We propose a simple strategy to
extract this implicit knowledge out of diffusion networks as image features,
namely DIffusion FeaTures (DIFT), and use them to establish correspondences
between real images. Without any additional fine-tuning or supervision on the
task-specific data or annotations, DIFT is able to outperform both
weakly-supervised methods and competitive off-the-shelf features in identifying
semantic, geometric, and temporal correspondences. Particularly for semantic
correspondence, DIFT from Stable Diffusion is able to outperform DINO and
OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k
benchmark. It even outperforms the state-of-the-art supervised methods on 9 out
of 18 categories while remaining on par for the overall performance. Project
page: https://diffusionfeatures.github.io