SceneAligner: 3D-verankerde plattegrondlokalisatie in het wild

Samenvatting

Veel openbare gebouwen bieden plattegronden met een "u bent hier"-aanduiding om bezoekers te helpen oriënteren. Plattegrondlokalisatie streeft ernaar deze mogelijkheid computationeel te repliceren door te bepalen waar visuele waarnemingen binnen een plattegrond zijn vastgelegd. Bestaande methoden gaan echter doorgaans uit van gecontroleerde kleinschalige omgevingen en nauwkeurige vectorgebaseerde plattegronden, wat hun vermogen beperkt om te functioneren in grootschalige gebouwen en gerasterde plattegronden. In dit werk presenteren we een aanpak voor het uitvoeren van plattegrondlokalisatie in de praktijk door de taak te gronden in een gereconstrueerde 3D-representatie van de scène. Gegeven een onbeperkte verzameling afbeeldingen reconstrueert onze methode een zwaartekracht-gealigneerde 3D-scène en projecteert deze in een 2D-dichtheidskaart die als proxy voor de plattegrond fungeert. Plattegrondlokalisatie wordt vervolgens geformuleerd als het uitlijnen van deze proxy met de invoerplattegrond via een 2D-gelijkvormigheidstransformatie. Om de visuele kloof tussen dichtheidskaarten en architecturale plattegronden te overbruggen, passen we een 2D-fundamentmodel aan om crossmodale overeenkomsten te leren, waarbij we een fijnafstemmingsschema introduceren dat semantisch uitgelijnde overeenkomsten bevordert met behoud van structurele consistentie. Uitgebreide experimenten tonen aanzienlijke verbeteringen aan ten opzichte van eerdere methoden, zelfs in extreem schaarse omgevingen met slechts één enkele invoerafbeelding. Onze code en gegevens zullen openbaar beschikbaar worden gesteld.

English

Many public buildings provide floorplans with a "you are here" indicator to help visitors orient themselves. Floorplan localization seeks to computationally replicate this capability by determining where visual observations were captured within a floorplan. However, existing methods typically assume controlled small-scale environments and precise vectorized floorplans, limiting their ability to operate in large-scale buildings and rasterized floorplans. In this work, we present an approach for performing floorplan localization in the wild by grounding the task in a reconstructed 3D representation of the scene. Given an unconstrained image collection, our method reconstructs a gravity-aligned 3D scene and projects it into a 2D density map that serves as a floorplan proxy. Floorplan localization is then formulated as aligning this proxy with the input floorplan via a 2D similarity transform. To bridge the appearance gap between density maps and architectural floorplans, we adapt a 2D foundation model to learn cross-modal correspondences, introducing a fine-tuning scheme that encourages semantically aligned matches while preserving structural consistency. Extensive experiments demonstrate substantial improvements over prior methods, including in extremely sparse settings with as little as a single input image. Our code and data will be publicly available.