SceneAligner: Localização de Plantas Baixas Fundamentada em 3D em Ambientes Reais

Resumo

Muitos edifícios públicos fornecem plantas baixas com um indicador de "você está aqui" para ajudar os visitantes a se orientarem. A localização em plantas baixas busca replicar computacionalmente essa capacidade, determinando onde as observações visuais foram capturadas dentro de uma planta baixa. No entanto, os métodos existentes geralmente assumem ambientes controlados de pequena escala e plantas baixas vetorizadas precisas, limitando sua capacidade de operar em edifícios de grande escala e plantas baixas rasterizadas. Neste trabalho, apresentamos uma abordagem para realizar localização em plantas baixas em cenários reais, fundamentando a tarefa em uma representação 3D reconstruída da cena. Dada uma coleção de imagens não restrita, nosso método reconstrói uma cena 3D alinhada com a gravidade e a projeta em um mapa de densidade 2D que serve como proxy de planta baixa. A localização em planta baixa é então formulada como o alinhamento desse proxy com a planta baixa de entrada por meio de uma transformação de similaridade 2D. Para superar a lacuna de aparência entre mapas de densidade e plantas baixas arquitetônicas, adaptamos um modelo 2D de base para aprender correspondências cross-modais, introduzindo um esquema de ajuste fino que incentiva correspondências semanticamente alinhadas, preservando a consistência estrutural. Experimentos extensivos demonstram melhorias substanciais em relação a métodos anteriores, inclusive em configurações extremamente esparsas com apenas uma única imagem de entrada. Nosso código e dados serão disponibilizados publicamente.

English

Many public buildings provide floorplans with a "you are here" indicator to help visitors orient themselves. Floorplan localization seeks to computationally replicate this capability by determining where visual observations were captured within a floorplan. However, existing methods typically assume controlled small-scale environments and precise vectorized floorplans, limiting their ability to operate in large-scale buildings and rasterized floorplans. In this work, we present an approach for performing floorplan localization in the wild by grounding the task in a reconstructed 3D representation of the scene. Given an unconstrained image collection, our method reconstructs a gravity-aligned 3D scene and projects it into a 2D density map that serves as a floorplan proxy. Floorplan localization is then formulated as aligning this proxy with the input floorplan via a 2D similarity transform. To bridge the appearance gap between density maps and architectural floorplans, we adapt a 2D foundation model to learn cross-modal correspondences, introducing a fine-tuning scheme that encourages semantically aligned matches while preserving structural consistency. Extensive experiments demonstrate substantial improvements over prior methods, including in extremely sparse settings with as little as a single input image. Our code and data will be publicly available.