Doppelgangers: Aprendendo a Desambiguar Imagens de Estruturas Similares
Doppelgangers: Learning to Disambiguate Images of Similar Structures
September 5, 2023
Autores: Ruojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely
cs.AI
Resumo
Consideramos a tarefa de desambiguação visual de determinar se um par de imagens visualmente semelhantes retrata a mesma superfície 3D ou superfícies distintas (por exemplo, o mesmo lado ou lados opostos de um edifício simétrico). Correspondências ilusórias de imagens, onde duas imagens observam superfícies 3D distintas, mas visualmente semelhantes, podem ser desafiadoras para humanos diferenciarem e também podem levar algoritmos de reconstrução 3D a produzir resultados errôneos. Propomos uma abordagem baseada em aprendizado para a desambiguação visual, formulando-a como uma tarefa de classificação binária em pares de imagens. Para isso, introduzimos um novo conjunto de dados para esse problema, chamado Doppelgangers, que inclui pares de imagens de estruturas semelhantes com rótulos de verdade fundamental. Também projetamos uma arquitetura de rede que utiliza a distribuição espacial de pontos-chave locais e correspondências como entrada, permitindo um melhor raciocínio sobre pistas locais e globais. Nossa avaliação mostra que nosso método pode distinguir correspondências ilusórias em casos difíceis e pode ser integrado em pipelines de SfM para produzir reconstruções 3D corretas e desambiguadas. Consulte nossa página do projeto para obter nosso código, conjuntos de dados e mais resultados: http://doppelgangers-3d.github.io/.
English
We consider the visual disambiguation task of determining whether a pair of
visually similar images depict the same or distinct 3D surfaces (e.g., the same
or opposite sides of a symmetric building). Illusory image matches, where two
images observe distinct but visually similar 3D surfaces, can be challenging
for humans to differentiate, and can also lead 3D reconstruction algorithms to
produce erroneous results. We propose a learning-based approach to visual
disambiguation, formulating it as a binary classification task on image pairs.
To that end, we introduce a new dataset for this problem, Doppelgangers, which
includes image pairs of similar structures with ground truth labels. We also
design a network architecture that takes the spatial distribution of local
keypoints and matches as input, allowing for better reasoning about both local
and global cues. Our evaluation shows that our method can distinguish illusory
matches in difficult cases, and can be integrated into SfM pipelines to produce
correct, disambiguated 3D reconstructions. See our project page for our code,
datasets, and more results: http://doppelgangers-3d.github.io/.