Возникновение соответствий в диффузии изображений
Emergent Correspondence from Image Diffusion
June 6, 2023
Авторы: Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan
cs.AI
Аннотация
Поиск соответствий между изображениями является фундаментальной задачей в компьютерном зрении. В данной работе мы показываем, что соответствия возникают в моделях диффузии изображений без явного обучения. Мы предлагаем простую стратегию для извлечения этого скрытого знания из сетей диффузии в виде признаков изображений, а именно DIffusion FeaTures (DIFT), и используем их для установления соответствий между реальными изображениями. Без дополнительной тонкой настройки или обучения на данных или аннотациях, специфичных для задачи, DIFT способен превзойти как слабо контролируемые методы, так и конкурентоспособные готовые признаки в идентификации семантических, геометрических и временных соответствий. В частности, для семантических соответствий DIFT из Stable Diffusion превосходит DINO и OpenCLIP на 19 и 14 пунктов точности соответственно на сложном бенчмарке SPair-71k. Он даже превосходит современные контролируемые методы в 9 из 18 категорий, оставаясь наравне по общей производительности. Страница проекта: https://diffusionfeatures.github.io
English
Finding correspondences between images is a fundamental problem in computer
vision. In this paper, we show that correspondence emerges in image diffusion
models without any explicit supervision. We propose a simple strategy to
extract this implicit knowledge out of diffusion networks as image features,
namely DIffusion FeaTures (DIFT), and use them to establish correspondences
between real images. Without any additional fine-tuning or supervision on the
task-specific data or annotations, DIFT is able to outperform both
weakly-supervised methods and competitive off-the-shelf features in identifying
semantic, geometric, and temporal correspondences. Particularly for semantic
correspondence, DIFT from Stable Diffusion is able to outperform DINO and
OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k
benchmark. It even outperforms the state-of-the-art supervised methods on 9 out
of 18 categories while remaining on par for the overall performance. Project
page: https://diffusionfeatures.github.io