Двойники: обучение разрешению неоднозначности изображений схожих структур
Doppelgangers: Learning to Disambiguate Images of Similar Structures
September 5, 2023
Авторы: Ruojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely
cs.AI
Аннотация
Мы рассматриваем задачу визуального различения, которая заключается в определении, изображает ли пара визуально схожих изображений одну и ту же или различные 3D поверхности (например, одну и ту же или противоположные стороны симметричного здания). Иллюзорные совпадения изображений, где два изображения показывают различные, но визуально схожие 3D поверхности, могут быть сложными для различения даже для человека, а также могут приводить к ошибочным результатам в алгоритмах 3D-реконструкции. Мы предлагаем подход к визуальному различению на основе машинного обучения, формулируя его как задачу бинарной классификации для пар изображений. Для этого мы представляем новый набор данных для этой задачи, Doppelgangers, который включает пары изображений схожих структур с эталонными метками. Мы также разрабатываем архитектуру сети, которая принимает на вход пространственное распределение локальных ключевых точек и совпадений, что позволяет лучше учитывать как локальные, так и глобальные признаки. Наша оценка показывает, что наш метод способен различать иллюзорные совпадения в сложных случаях и может быть интегрирован в конвейеры SfM для получения корректных, разобранных 3D-реконструкций. Дополнительные сведения, включая код, наборы данных и результаты, доступны на странице проекта: http://doppelgangers-3d.github.io/.
English
We consider the visual disambiguation task of determining whether a pair of
visually similar images depict the same or distinct 3D surfaces (e.g., the same
or opposite sides of a symmetric building). Illusory image matches, where two
images observe distinct but visually similar 3D surfaces, can be challenging
for humans to differentiate, and can also lead 3D reconstruction algorithms to
produce erroneous results. We propose a learning-based approach to visual
disambiguation, formulating it as a binary classification task on image pairs.
To that end, we introduce a new dataset for this problem, Doppelgangers, which
includes image pairs of similar structures with ground truth labels. We also
design a network architecture that takes the spatial distribution of local
keypoints and matches as input, allowing for better reasoning about both local
and global cues. Our evaluation shows that our method can distinguish illusory
matches in difficult cases, and can be integrated into SfM pipelines to produce
correct, disambiguated 3D reconstructions. See our project page for our code,
datasets, and more results: http://doppelgangers-3d.github.io/.