ChatPaper.aiChatPaper

Doppelganger: Apprendere a Disambiguare Immagini di Strutture Simili

Doppelgangers: Learning to Disambiguate Images of Similar Structures

September 5, 2023
Autori: Ruojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely
cs.AI

Abstract

Consideriamo il compito di disambiguazione visiva che consiste nel determinare se una coppia di immagini visivamente simili rappresenta la stessa superficie 3D o superfici distinte (ad esempio, lo stesso lato o i lati opposti di un edificio simmetrico). Le corrispondenze illusorie tra immagini, in cui due immagini osservano superfici 3D distinte ma visivamente simili, possono essere difficili da distinguere per gli esseri umani e possono anche portare gli algoritmi di ricostruzione 3D a produrre risultati errati. Proponiamo un approccio basato sull'apprendimento per la disambiguazione visiva, formulandolo come un compito di classificazione binaria su coppie di immagini. A tal fine, introduciamo un nuovo dataset per questo problema, chiamato Doppelgangers, che include coppie di immagini di strutture simili con etichette di verità fondamentale. Progettiamo inoltre un'architettura di rete che prende in input la distribuzione spaziale dei punti chiave locali e delle corrispondenze, consentendo un ragionamento migliore sia sui segnali locali che su quelli globali. La nostra valutazione dimostra che il nostro metodo è in grado di distinguere corrispondenze illusorie in casi difficili e può essere integrato nelle pipeline SfM per produrre ricostruzioni 3D corrette e disambiguate. Visita la nostra pagina del progetto per il codice, i dataset e ulteriori risultati: http://doppelgangers-3d.github.io/.
English
We consider the visual disambiguation task of determining whether a pair of visually similar images depict the same or distinct 3D surfaces (e.g., the same or opposite sides of a symmetric building). Illusory image matches, where two images observe distinct but visually similar 3D surfaces, can be challenging for humans to differentiate, and can also lead 3D reconstruction algorithms to produce erroneous results. We propose a learning-based approach to visual disambiguation, formulating it as a binary classification task on image pairs. To that end, we introduce a new dataset for this problem, Doppelgangers, which includes image pairs of similar structures with ground truth labels. We also design a network architecture that takes the spatial distribution of local keypoints and matches as input, allowing for better reasoning about both local and global cues. Our evaluation shows that our method can distinguish illusory matches in difficult cases, and can be integrated into SfM pipelines to produce correct, disambiguated 3D reconstructions. See our project page for our code, datasets, and more results: http://doppelgangers-3d.github.io/.
PDF110February 8, 2026