Doppelgänger: Lernen, Bilder ähnlicher Strukturen zu unterscheiden
Doppelgangers: Learning to Disambiguate Images of Similar Structures
September 5, 2023
Autoren: Ruojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely
cs.AI
Zusammenfassung
Wir betrachten die Aufgabe der visuellen Disambiguierung, bei der bestimmt werden soll, ob ein Paar visuell ähnlicher Bilder dieselben oder unterschiedliche 3D-Oberflächen darstellen (z. B. dieselbe oder gegenüberliegende Seiten eines symmetrischen Gebäudes). Illusorische Bildübereinstimmungen, bei denen zwei Bilder unterschiedliche, aber visuell ähnliche 3D-Oberflächen zeigen, können für Menschen schwer zu unterscheiden sein und können auch dazu führen, dass 3D-Rekonstruktionsalgorithmen fehlerhafte Ergebnisse liefern. Wir schlagen einen lernbasierten Ansatz zur visuellen Disambiguierung vor, der diese Aufgabe als binäre Klassifikation von Bildpaaren formuliert. Zu diesem Zweck führen wir einen neuen Datensatz für dieses Problem ein, Doppelgänger, der Bildpaare ähnlicher Strukturen mit Ground-Truth-Labels enthält. Wir entwerfen außerdem eine Netzwerkarchitektur, die die räumliche Verteilung lokaler Keypoints und Übereinstimmungen als Eingabe verwendet, um eine bessere Berücksichtigung sowohl lokaler als auch globaler Hinweise zu ermöglichen. Unsere Auswertung zeigt, dass unsere Methode illusorische Übereinstimmungen in schwierigen Fällen unterscheiden kann und in SfM-Pipelines integriert werden kann, um korrekte, disambiguierte 3D-Rekonstruktionen zu erzeugen. Besuchen Sie unsere Projektseite für unseren Code, Datensätze und weitere Ergebnisse: http://doppelgangers-3d.github.io/.
English
We consider the visual disambiguation task of determining whether a pair of
visually similar images depict the same or distinct 3D surfaces (e.g., the same
or opposite sides of a symmetric building). Illusory image matches, where two
images observe distinct but visually similar 3D surfaces, can be challenging
for humans to differentiate, and can also lead 3D reconstruction algorithms to
produce erroneous results. We propose a learning-based approach to visual
disambiguation, formulating it as a binary classification task on image pairs.
To that end, we introduce a new dataset for this problem, Doppelgangers, which
includes image pairs of similar structures with ground truth labels. We also
design a network architecture that takes the spatial distribution of local
keypoints and matches as input, allowing for better reasoning about both local
and global cues. Our evaluation shows that our method can distinguish illusory
matches in difficult cases, and can be integrated into SfM pipelines to produce
correct, disambiguated 3D reconstructions. See our project page for our code,
datasets, and more results: http://doppelgangers-3d.github.io/.