SceneAligner: 3D-gestützte Grundrisslokalisierung unter realen Bedingungen

Zusammenfassung

Viele öffentliche Gebäude stellen Grundrisse mit einem „Sie sind hier“-Indikator zur Verfügung, um Besuchern die Orientierung zu erleichtern. Die Grundrisslokalisierung zielt darauf ab, diese Fähigkeit rechnerisch zu replizieren, indem bestimmt wird, wo visuelle Aufnahmen innerhalb eines Grundrisses aufgenommen wurden. Bestehende Methoden gehen jedoch typischerweise von kontrollierten, kleinräumigen Umgebungen und präzisen vektorisierten Grundrissen aus, was ihre Anwendbarkeit in großen Gebäuden und bei gerasterten Grundrissen einschränkt. In dieser Arbeit stellen wir einen Ansatz zur Grundrisslokalisierung in freier Wildbahn vor, indem wir die Aufgabe in einer rekonstruierten 3D-Darstellung der Szene verankern. Ausgehend von einer uneingeschränkten Bildsammlung rekonstruiert unsere Methode eine schwerkraftausgerichtete 3D-Szene und projiziert sie in eine 2D-Dichtekarte, die als Grundriss-Proxy dient. Die Grundrisslokalisierung wird dann als Ausrichtung dieses Proxys mit dem Eingabegrundriss mithilfe einer 2D-Ähnlichkeitstransformation formuliert. Um die Erscheinungslücke zwischen Dichtekarten und architektonischen Grundrissen zu überbrücken, passen wir ein 2D-Grundlagenmodell an, um cross-modale Korrespondenzen zu lernen, und führen ein Feinabstimmungsschema ein, das semantisch ausgerichtete Übereinstimmungen fördert und gleichzeitig die strukturelle Konsistenz bewahrt. Umfangreiche Experimente zeigen erhebliche Verbesserungen gegenüber früheren Methoden, auch in extrem dünnbesetzten Szenarien mit lediglich einem einzigen Eingabebild. Unser Code und unsere Daten werden öffentlich verfügbar sein.

English

Many public buildings provide floorplans with a "you are here" indicator to help visitors orient themselves. Floorplan localization seeks to computationally replicate this capability by determining where visual observations were captured within a floorplan. However, existing methods typically assume controlled small-scale environments and precise vectorized floorplans, limiting their ability to operate in large-scale buildings and rasterized floorplans. In this work, we present an approach for performing floorplan localization in the wild by grounding the task in a reconstructed 3D representation of the scene. Given an unconstrained image collection, our method reconstructs a gravity-aligned 3D scene and projects it into a 2D density map that serves as a floorplan proxy. Floorplan localization is then formulated as aligning this proxy with the input floorplan via a 2D similarity transform. To bridge the appearance gap between density maps and architectural floorplans, we adapt a 2D foundation model to learn cross-modal correspondences, introducing a fine-tuning scheme that encourages semantically aligned matches while preserving structural consistency. Extensive experiments demonstrate substantial improvements over prior methods, including in extremely sparse settings with as little as a single input image. Our code and data will be publicly available.