Doppelgangers: Het leren onderscheiden van afbeeldingen van vergelijkbare structuren
Doppelgangers: Learning to Disambiguate Images of Similar Structures
September 5, 2023
Auteurs: Ruojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely
cs.AI
Samenvatting
We beschouwen de visuele disambiguatietaak van het bepalen of een paar visueel vergelijkbare afbeeldingen dezelfde of verschillende 3D-oppervlakken weergeven (bijvoorbeeld dezelfde of tegenovergestelde zijden van een symmetrisch gebouw). Illusoire beeldovereenkomsten, waarbij twee afbeeldingen verschillende maar visueel vergelijkbare 3D-oppervlakken observeren, kunnen voor mensen moeilijk te onderscheiden zijn en kunnen er ook toe leiden dat 3D-reconstructiealgoritmen foutieve resultaten produceren. We stellen een op leren gebaseerde aanpak voor visuele disambiguatie voor, waarbij we het formuleren als een binaire classificatietaak op beeldparen. Hiertoe introduceren we een nieuwe dataset voor dit probleem, Doppelgangers, die beeldparen van vergelijkbare structuren bevat met grondwaarheidslabels. We ontwerpen ook een netwerkarchitectuur die de ruimtelijke verdeling van lokale sleutelpunten en overeenkomsten als invoer neemt, wat een betere redenering over zowel lokale als globale aanwijzingen mogelijk maakt. Onze evaluatie toont aan dat onze methode illusoire overeenkomsten in moeilijke gevallen kan onderscheiden en kan worden geïntegreerd in SfM-pipelines om correcte, gedisambigueerde 3D-reconstructies te produceren. Zie onze projectpagina voor onze code, datasets en meer resultaten: http://doppelgangers-3d.github.io/.
English
We consider the visual disambiguation task of determining whether a pair of
visually similar images depict the same or distinct 3D surfaces (e.g., the same
or opposite sides of a symmetric building). Illusory image matches, where two
images observe distinct but visually similar 3D surfaces, can be challenging
for humans to differentiate, and can also lead 3D reconstruction algorithms to
produce erroneous results. We propose a learning-based approach to visual
disambiguation, formulating it as a binary classification task on image pairs.
To that end, we introduce a new dataset for this problem, Doppelgangers, which
includes image pairs of similar structures with ground truth labels. We also
design a network architecture that takes the spatial distribution of local
keypoints and matches as input, allowing for better reasoning about both local
and global cues. Our evaluation shows that our method can distinguish illusory
matches in difficult cases, and can be integrated into SfM pipelines to produce
correct, disambiguated 3D reconstructions. See our project page for our code,
datasets, and more results: http://doppelgangers-3d.github.io/.