SceneAligner : localisation de plan d'étage ancrée en 3D en environnements réels

Résumé

De nombreux bâtiments publics fournissent des plans d'étage avec un indicateur "vous êtes ici" pour aider les visiteurs à s'orienter. La localisation dans un plan d'étage vise à reproduire cette capacité de manière informatique en déterminant où des observations visuelles ont été capturées dans ce plan. Cependant, les méthodes existantes supposent généralement des environnements contrôlés de petite échelle et des plans d'étage vectorisés précis, ce qui limite leur capacité à opérer dans des bâtiments de grande taille et avec des plans d'étage rasterisés. Dans ce travail, nous présentons une approche pour effectuer une localisation dans un plan d'étage en conditions réelles, en ancrant la tâche dans une représentation 3D reconstruite de la scène. À partir d'une collection d'images non contraintes, notre méthode reconstruit une scène 3D alignée sur la gravité et la projette en une carte de densité 2D qui sert de substitut au plan d'étage. La localisation dans le plan d'étage est ensuite formulée comme l'alignement de ce substitut avec le plan d'étage d'entrée via une transformation de similarité 2D. Pour combler l'écart d'apparence entre les cartes de densité et les plans d'étage architecturaux, nous adaptons un modèle fondamental 2D pour apprendre des correspondances inter-modales, en introduisant un schéma d'ajustement fin qui encourage des correspondances sémantiquement alignées tout en préservant la cohérence structurelle. Des expériences approfondies démontrent des améliorations substantielles par rapport aux méthodes antérieures, y compris dans des contextes extrêmement parcimonieux avec aussi peu qu'une seule image d'entrée. Notre code et nos données seront rendus publics.

English

Many public buildings provide floorplans with a "you are here" indicator to help visitors orient themselves. Floorplan localization seeks to computationally replicate this capability by determining where visual observations were captured within a floorplan. However, existing methods typically assume controlled small-scale environments and precise vectorized floorplans, limiting their ability to operate in large-scale buildings and rasterized floorplans. In this work, we present an approach for performing floorplan localization in the wild by grounding the task in a reconstructed 3D representation of the scene. Given an unconstrained image collection, our method reconstructs a gravity-aligned 3D scene and projects it into a 2D density map that serves as a floorplan proxy. Floorplan localization is then formulated as aligning this proxy with the input floorplan via a 2D similarity transform. To bridge the appearance gap between density maps and architectural floorplans, we adapt a 2D foundation model to learn cross-modal correspondences, introducing a fine-tuning scheme that encourages semantically aligned matches while preserving structural consistency. Extensive experiments demonstrate substantial improvements over prior methods, including in extremely sparse settings with as little as a single input image. Our code and data will be publicly available.