SceneAligner: 実環境における3次元に基づくフロアプラン位置推定
SceneAligner: 3D-Grounded Floorplan Localization in the Wild
May 21, 2026
著者: Junhyeong Cho, Ruojin Cai, Hadar Averbuch-Elor
cs.AI
要旨
多くの公共建築物では、訪問者の方向確認を支援するために「現在地」を示すフロアプランが提供されている。フロアプラン位置推定は、フロアプラン内で視覚的観測が行われた場所を計算によって特定することで、この機能を再現しようとするものである。しかし、既存の手法は通常、制御された小規模環境と精密なベクトル化フロアプランを前提としており、大規模建物やラスタライズされたフロアプランへの適用が制限されている。本稿では、シーンの再構成された3次元表現にタスクを基づけることで、実環境におけるフロアプラン位置推定を実現する手法を提案する。制約のない画像集合を入力として、重力方向に合わせた3次元シーンを再構成し、それを2次元密度マップに投影してフロアプランの代理とする。そして、フロアプラン位置推定を、この代理マップと入力フロアプランを2次元相似変換によって位置合わせする問題として定式化する。密度マップと建築フロアプランの間の見た目のギャップを埋めるため、2次元基盤モデルを適用してクロスモーダル対応を学習し、構造的一貫性を保ちながら意味的に整合した対応を促進するファインチューニング手法を導入する。広範な実験により、本手法は従来手法と比較して大幅な改善を示し、特に1枚の画像のみという極めて疎な設定でも有効であることを確認した。コードとデータは公開予定である。
English
Many public buildings provide floorplans with a "you are here" indicator to help visitors orient themselves. Floorplan localization seeks to computationally replicate this capability by determining where visual observations were captured within a floorplan. However, existing methods typically assume controlled small-scale environments and precise vectorized floorplans, limiting their ability to operate in large-scale buildings and rasterized floorplans. In this work, we present an approach for performing floorplan localization in the wild by grounding the task in a reconstructed 3D representation of the scene. Given an unconstrained image collection, our method reconstructs a gravity-aligned 3D scene and projects it into a 2D density map that serves as a floorplan proxy. Floorplan localization is then formulated as aligning this proxy with the input floorplan via a 2D similarity transform. To bridge the appearance gap between density maps and architectural floorplans, we adapt a 2D foundation model to learn cross-modal correspondences, introducing a fine-tuning scheme that encourages semantically aligned matches while preserving structural consistency. Extensive experiments demonstrate substantial improvements over prior methods, including in extremely sparse settings with as little as a single input image. Our code and data will be publicly available.