ChatPaper.aiChatPaper

Doppelgangers: Aprendiendo a Desambiguar Imágenes de Estructuras Similares

Doppelgangers: Learning to Disambiguate Images of Similar Structures

September 5, 2023
Autores: Ruojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely
cs.AI

Resumen

Consideramos la tarea de desambiguación visual de determinar si un par de imágenes visualmente similares representan las mismas o distintas superficies 3D (por ejemplo, el mismo o el lado opuesto de un edificio simétrico). Las coincidencias ilusorias de imágenes, donde dos imágenes observan superficies 3D distintas pero visualmente similares, pueden ser difíciles de diferenciar para los humanos y también pueden llevar a los algoritmos de reconstrucción 3D a producir resultados erróneos. Proponemos un enfoque basado en aprendizaje para la desambiguación visual, formulándolo como una tarea de clasificación binaria en pares de imágenes. Para ello, introducimos un nuevo conjunto de datos para este problema, Doppelgangers, que incluye pares de imágenes de estructuras similares con etiquetas de verdad fundamental. También diseñamos una arquitectura de red que toma como entrada la distribución espacial de puntos clave locales y coincidencias, permitiendo un mejor razonamiento tanto sobre pistas locales como globales. Nuestra evaluación muestra que nuestro método puede distinguir coincidencias ilusorias en casos difíciles y puede integrarse en pipelines de SfM para producir reconstrucciones 3D correctas y desambiguadas. Consulte nuestra página del proyecto para obtener nuestro código, conjuntos de datos y más resultados: http://doppelgangers-3d.github.io/.
English
We consider the visual disambiguation task of determining whether a pair of visually similar images depict the same or distinct 3D surfaces (e.g., the same or opposite sides of a symmetric building). Illusory image matches, where two images observe distinct but visually similar 3D surfaces, can be challenging for humans to differentiate, and can also lead 3D reconstruction algorithms to produce erroneous results. We propose a learning-based approach to visual disambiguation, formulating it as a binary classification task on image pairs. To that end, we introduce a new dataset for this problem, Doppelgangers, which includes image pairs of similar structures with ground truth labels. We also design a network architecture that takes the spatial distribution of local keypoints and matches as input, allowing for better reasoning about both local and global cues. Our evaluation shows that our method can distinguish illusory matches in difficult cases, and can be integrated into SfM pipelines to produce correct, disambiguated 3D reconstructions. See our project page for our code, datasets, and more results: http://doppelgangers-3d.github.io/.
PDF110December 15, 2024