ChatPaper.aiChatPaper

Entstehende Korrespondenz durch Bilddiffusion

Emergent Correspondence from Image Diffusion

June 6, 2023
Autoren: Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan
cs.AI

Zusammenfassung

Das Finden von Korrespondenzen zwischen Bildern ist ein grundlegendes Problem in der Computer Vision. In diesem Artikel zeigen wir, dass Korrespondenzen in Bild-Diffusionsmodellen ohne explizite Überwachung entstehen. Wir schlagen eine einfache Strategie vor, um dieses implizite Wissen aus Diffusionsnetzwerken als Bildmerkmale zu extrahieren, nämlich DIffusion FeaTures (DIFT), und verwenden diese, um Korrespondenzen zwischen realen Bildern herzustellen. Ohne zusätzliches Feinabstimmen oder Überwachung auf aufgabenspezifische Daten oder Annotationen ist DIFT in der Lage, sowohl schwach überwachte Methoden als auch konkurrenzfähige Standardmerkmale bei der Identifizierung von semantischen, geometrischen und zeitlichen Korrespondenzen zu übertreffen. Insbesondere bei semantischen Korrespondenzen kann DIFT aus Stable Diffusion DINO und OpenCLIP auf dem anspruchsvollen SPair-71k-Benchmark um 19 bzw. 14 Genauigkeitspunkte übertreffen. Es übertrifft sogar die state-of-the-art überwachten Methoden in 9 von 18 Kategorien, während es bei der Gesamtleistung gleichauf bleibt. Projektseite: https://diffusionfeatures.github.io
English
Finding correspondences between images is a fundamental problem in computer vision. In this paper, we show that correspondence emerges in image diffusion models without any explicit supervision. We propose a simple strategy to extract this implicit knowledge out of diffusion networks as image features, namely DIffusion FeaTures (DIFT), and use them to establish correspondences between real images. Without any additional fine-tuning or supervision on the task-specific data or annotations, DIFT is able to outperform both weakly-supervised methods and competitive off-the-shelf features in identifying semantic, geometric, and temporal correspondences. Particularly for semantic correspondence, DIFT from Stable Diffusion is able to outperform DINO and OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k benchmark. It even outperforms the state-of-the-art supervised methods on 9 out of 18 categories while remaining on par for the overall performance. Project page: https://diffusionfeatures.github.io
PDF62December 15, 2024