ChatPaper.aiChatPaper

Doppelgangers : Apprendre à désambiguïser les images de structures similaires

Doppelgangers: Learning to Disambiguate Images of Similar Structures

September 5, 2023
Auteurs: Ruojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely
cs.AI

Résumé

Nous considérons la tâche de désambiguïsation visuelle consistant à déterminer si une paire d'images visuellement similaires représente la même surface 3D ou des surfaces distinctes (par exemple, le même côté ou les côtés opposés d'un bâtiment symétrique). Les correspondances d'images illusoires, où deux images observent des surfaces 3D distinctes mais visuellement similaires, peuvent être difficiles à différencier pour les humains et peuvent également amener les algorithmes de reconstruction 3D à produire des résultats erronés. Nous proposons une approche basée sur l'apprentissage pour la désambiguïsation visuelle, en la formulant comme une tâche de classification binaire sur des paires d'images. À cette fin, nous introduisons un nouveau jeu de données pour ce problème, Doppelgangers, qui inclut des paires d'images de structures similaires avec des étiquettes de vérité terrain. Nous concevons également une architecture de réseau qui prend en entrée la distribution spatiale des points clés locaux et leurs correspondances, permettant une meilleure prise en compte des indices locaux et globaux. Notre évaluation montre que notre méthode peut distinguer les correspondances illusoires dans des cas difficiles et peut être intégrée dans des pipelines de SfM pour produire des reconstructions 3D correctes et désambiguïsées. Consultez notre page de projet pour accéder à notre code, aux jeux de données et à davantage de résultats : http://doppelgangers-3d.github.io/.
English
We consider the visual disambiguation task of determining whether a pair of visually similar images depict the same or distinct 3D surfaces (e.g., the same or opposite sides of a symmetric building). Illusory image matches, where two images observe distinct but visually similar 3D surfaces, can be challenging for humans to differentiate, and can also lead 3D reconstruction algorithms to produce erroneous results. We propose a learning-based approach to visual disambiguation, formulating it as a binary classification task on image pairs. To that end, we introduce a new dataset for this problem, Doppelgangers, which includes image pairs of similar structures with ground truth labels. We also design a network architecture that takes the spatial distribution of local keypoints and matches as input, allowing for better reasoning about both local and global cues. Our evaluation shows that our method can distinguish illusory matches in difficult cases, and can be integrated into SfM pipelines to produce correct, disambiguated 3D reconstructions. See our project page for our code, datasets, and more results: http://doppelgangers-3d.github.io/.
PDF110December 15, 2024