Correspondência Emergente a partir de Difusão de Imagens
Emergent Correspondence from Image Diffusion
June 6, 2023
Autores: Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan
cs.AI
Resumo
Encontrar correspondências entre imagens é um problema fundamental na visão computacional. Neste artigo, demonstramos que a correspondência emerge em modelos de difusão de imagens sem qualquer supervisão explícita. Propomos uma estratégia simples para extrair esse conhecimento implícito das redes de difusão como características de imagem, denominadas DIffusion FeaTures (DIFT), e usá-las para estabelecer correspondências entre imagens reais. Sem qualquer ajuste fino adicional ou supervisão em dados ou anotações específicas da tarefa, o DIFT é capaz de superar tanto métodos fracamente supervisionados quanto características competitivas prontas para uso na identificação de correspondências semânticas, geométricas e temporais. Particularmente para correspondência semântica, o DIFT do Stable Diffusion consegue superar o DINO e o OpenCLIP em 19 e 14 pontos de precisão, respectivamente, no desafiador benchmark SPair-71k. Ele até supera os métodos supervisionados de última geração em 9 das 18 categorias, mantendo-se em pé de igualdade no desempenho geral. Página do projeto: https://diffusionfeatures.github.io
English
Finding correspondences between images is a fundamental problem in computer
vision. In this paper, we show that correspondence emerges in image diffusion
models without any explicit supervision. We propose a simple strategy to
extract this implicit knowledge out of diffusion networks as image features,
namely DIffusion FeaTures (DIFT), and use them to establish correspondences
between real images. Without any additional fine-tuning or supervision on the
task-specific data or annotations, DIFT is able to outperform both
weakly-supervised methods and competitive off-the-shelf features in identifying
semantic, geometric, and temporal correspondences. Particularly for semantic
correspondence, DIFT from Stable Diffusion is able to outperform DINO and
OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k
benchmark. It even outperforms the state-of-the-art supervised methods on 9 out
of 18 categories while remaining on par for the overall performance. Project
page: https://diffusionfeatures.github.io