Doppelgangers : Apprendre à désambiguïser les images de structures similaires
Doppelgangers: Learning to Disambiguate Images of Similar Structures
September 5, 2023
Auteurs: Ruojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely
cs.AI
Résumé
Nous considérons la tâche de désambiguïsation visuelle consistant à déterminer si une paire d'images visuellement similaires représente la même surface 3D ou des surfaces distinctes (par exemple, le même côté ou les côtés opposés d'un bâtiment symétrique). Les correspondances d'images illusoires, où deux images observent des surfaces 3D distinctes mais visuellement similaires, peuvent être difficiles à différencier pour les humains et peuvent également amener les algorithmes de reconstruction 3D à produire des résultats erronés. Nous proposons une approche basée sur l'apprentissage pour la désambiguïsation visuelle, en la formulant comme une tâche de classification binaire sur des paires d'images. À cette fin, nous introduisons un nouveau jeu de données pour ce problème, Doppelgangers, qui inclut des paires d'images de structures similaires avec des étiquettes de vérité terrain. Nous concevons également une architecture de réseau qui prend en entrée la distribution spatiale des points clés locaux et leurs correspondances, permettant une meilleure prise en compte des indices locaux et globaux. Notre évaluation montre que notre méthode peut distinguer les correspondances illusoires dans des cas difficiles et peut être intégrée dans des pipelines de SfM pour produire des reconstructions 3D correctes et désambiguïsées. Consultez notre page de projet pour accéder à notre code, aux jeux de données et à davantage de résultats : http://doppelgangers-3d.github.io/.
English
We consider the visual disambiguation task of determining whether a pair of
visually similar images depict the same or distinct 3D surfaces (e.g., the same
or opposite sides of a symmetric building). Illusory image matches, where two
images observe distinct but visually similar 3D surfaces, can be challenging
for humans to differentiate, and can also lead 3D reconstruction algorithms to
produce erroneous results. We propose a learning-based approach to visual
disambiguation, formulating it as a binary classification task on image pairs.
To that end, we introduce a new dataset for this problem, Doppelgangers, which
includes image pairs of similar structures with ground truth labels. We also
design a network architecture that takes the spatial distribution of local
keypoints and matches as input, allowing for better reasoning about both local
and global cues. Our evaluation shows that our method can distinguish illusory
matches in difficult cases, and can be integrated into SfM pipelines to produce
correct, disambiguated 3D reconstructions. See our project page for our code,
datasets, and more results: http://doppelgangers-3d.github.io/.