SceneAligner: 3D-обоснованная локализация плана этажа в реальных условиях

Аннотация

Во многих общественных зданиях предоставляются планы этажей с указателем «вы находитесь здесь», чтобы помочь посетителям ориентироваться. Локализация на плане этажа стремится вычислительно воспроизвести эту возможность, определяя, где были сделаны визуальные наблюдения в пределах плана этажа. Однако существующие методы обычно предполагают контролируемые маломасштабные среды и точные векторизованные планы этажей, что ограничивает их способность работать в крупномасштабных зданиях и с растровыми планами этажей. В данной работе мы представляем подход к выполнению локализации на плане этажа в естественных условиях, основывая задачу на реконструированном трехмерном представлении сцены. Имея неограниченный набор изображений, наш метод реконструирует трехмерную сцену, выровненную по гравитации, и проецирует ее в двумерную карту плотности, которая служит прокси-планом этажа. Затем локализация на плане этажа формулируется как выравнивание этого прокси с входным планом этажа с помощью двумерного преобразования подобия. Чтобы преодолеть разрыв в представлении между картами плотности и архитектурными планами этажей, мы адаптируем двумерную фундаментальную модель для изучения межмодальных соответствий, вводя схему тонкой настройки, которая поощряет семантически согласованные совпадения, сохраняя структурную согласованность. Обширные эксперименты демонстрируют существенные улучшения по сравнению с предыдущими методами, в том числе в условиях крайне разреженных данных, при наличии всего одного входного изображения. Наш код и данные будут доступны публично.

English

Many public buildings provide floorplans with a "you are here" indicator to help visitors orient themselves. Floorplan localization seeks to computationally replicate this capability by determining where visual observations were captured within a floorplan. However, existing methods typically assume controlled small-scale environments and precise vectorized floorplans, limiting their ability to operate in large-scale buildings and rasterized floorplans. In this work, we present an approach for performing floorplan localization in the wild by grounding the task in a reconstructed 3D representation of the scene. Given an unconstrained image collection, our method reconstructs a gravity-aligned 3D scene and projects it into a 2D density map that serves as a floorplan proxy. Floorplan localization is then formulated as aligning this proxy with the input floorplan via a 2D similarity transform. To bridge the appearance gap between density maps and architectural floorplans, we adapt a 2D foundation model to learn cross-modal correspondences, introducing a fine-tuning scheme that encourages semantically aligned matches while preserving structural consistency. Extensive experiments demonstrate substantial improvements over prior methods, including in extremely sparse settings with as little as a single input image. Our code and data will be publicly available.