SceneAligner: Localización de Planos de Planta Basada en 3D en Entornos Reales

Resumen

Muchos edificios públicos proporcionan planos con un indicador de "usted está aquí" para ayudar a los visitantes a orientarse. La localización en planos busca replicar computacionalmente esta capacidad al determinar dónde se capturaron observaciones visuales dentro de un plano. Sin embargo, los métodos existentes suelen asumir entornos controlados de pequeña escala y planos vectorizados precisos, lo que limita su capacidad para operar en edificios de gran escala y planos rasterizados. En este trabajo, presentamos un enfoque para realizar localización en planos en entornos reales, basando la tarea en una representación 3D reconstruida de la escena. Dada una colección de imágenes sin restricciones, nuestro método reconstruye una escena 3D alineada con la gravedad y la proyecta en un mapa de densidad 2D que actúa como proxy del plano. La localización en el plano se formula entonces como la alineación de este proxy con el plano de entrada mediante una transformación de similitud 2D. Para salvar la brecha de apariencia entre los mapas de densidad y los planos arquitectónicos, adaptamos un modelo fundacional 2D para aprender correspondencias entre modalidades, introduciendo un esquema de ajuste fino que fomenta coincidencias semánticamente alineadas mientras mantiene la consistencia estructural. Experimentos exhaustivos demuestran mejoras sustanciales con respecto a métodos anteriores, incluso en entornos extremadamente dispersos con tan solo una única imagen de entrada. Nuestro código y datos estarán disponibles públicamente.

English

Many public buildings provide floorplans with a "you are here" indicator to help visitors orient themselves. Floorplan localization seeks to computationally replicate this capability by determining where visual observations were captured within a floorplan. However, existing methods typically assume controlled small-scale environments and precise vectorized floorplans, limiting their ability to operate in large-scale buildings and rasterized floorplans. In this work, we present an approach for performing floorplan localization in the wild by grounding the task in a reconstructed 3D representation of the scene. Given an unconstrained image collection, our method reconstructs a gravity-aligned 3D scene and projects it into a 2D density map that serves as a floorplan proxy. Floorplan localization is then formulated as aligning this proxy with the input floorplan via a 2D similarity transform. To bridge the appearance gap between density maps and architectural floorplans, we adapt a 2D foundation model to learn cross-modal correspondences, introducing a fine-tuning scheme that encourages semantically aligned matches while preserving structural consistency. Extensive experiments demonstrate substantial improvements over prior methods, including in extremely sparse settings with as little as a single input image. Our code and data will be publicly available.