Doppelgangers: Aprendiendo a Desambiguar Imágenes de Estructuras Similares
Doppelgangers: Learning to Disambiguate Images of Similar Structures
September 5, 2023
Autores: Ruojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely
cs.AI
Resumen
Consideramos la tarea de desambiguación visual de determinar si un par de imágenes visualmente similares representan las mismas o distintas superficies 3D (por ejemplo, el mismo o el lado opuesto de un edificio simétrico). Las coincidencias ilusorias de imágenes, donde dos imágenes observan superficies 3D distintas pero visualmente similares, pueden ser difíciles de diferenciar para los humanos y también pueden llevar a los algoritmos de reconstrucción 3D a producir resultados erróneos. Proponemos un enfoque basado en aprendizaje para la desambiguación visual, formulándolo como una tarea de clasificación binaria en pares de imágenes. Para ello, introducimos un nuevo conjunto de datos para este problema, Doppelgangers, que incluye pares de imágenes de estructuras similares con etiquetas de verdad fundamental. También diseñamos una arquitectura de red que toma como entrada la distribución espacial de puntos clave locales y coincidencias, permitiendo un mejor razonamiento tanto sobre pistas locales como globales. Nuestra evaluación muestra que nuestro método puede distinguir coincidencias ilusorias en casos difíciles y puede integrarse en pipelines de SfM para producir reconstrucciones 3D correctas y desambiguadas. Consulte nuestra página del proyecto para obtener nuestro código, conjuntos de datos y más resultados: http://doppelgangers-3d.github.io/.
English
We consider the visual disambiguation task of determining whether a pair of
visually similar images depict the same or distinct 3D surfaces (e.g., the same
or opposite sides of a symmetric building). Illusory image matches, where two
images observe distinct but visually similar 3D surfaces, can be challenging
for humans to differentiate, and can also lead 3D reconstruction algorithms to
produce erroneous results. We propose a learning-based approach to visual
disambiguation, formulating it as a binary classification task on image pairs.
To that end, we introduce a new dataset for this problem, Doppelgangers, which
includes image pairs of similar structures with ground truth labels. We also
design a network architecture that takes the spatial distribution of local
keypoints and matches as input, allowing for better reasoning about both local
and global cues. Our evaluation shows that our method can distinguish illusory
matches in difficult cases, and can be integrated into SfM pipelines to produce
correct, disambiguated 3D reconstructions. See our project page for our code,
datasets, and more results: http://doppelgangers-3d.github.io/.