PanoWorld: Auf dem Weg zu räumlichem Supersensing in der 360-Grad-Panorama-Welt

Zusammenfassung

Multimodale große Labor-Modelle (MLLMs) haben weiterhin Schwierigkeiten mit räumlichem Verständnis unter dem vorherrschenden perspektivischen Bildparadigma, das das enge Sichtfeld der menschlichen Wahrnehmung übernimmt. Für Navigation, robotergestützte Suche und 3D-Szenenverständnis bietet die 360-Grad-Panoramaerfassung eine Form der Übererfassung, indem sie die gesamte Umgebung auf einmal erfasst. Allerdings zerlegen bestehende MLLM-Pipelines Panoramen typischerweise in mehrere perspektivische Ansichten, wobei die sphärische Struktur der äquirektangularen Projektion (ERP) weitgehend implizit bleibt. In dieser Arbeit untersuchen wir das pano-native Verständnis, das erfordert, dass ein MLLM über ein ERP-Panorama als kontinuierlichen, beobachterzentrierten Raum schlussfolgert. Dazu definieren wir zunächst die Schlüsselfähigkeiten für pano-natives Verständnis, einschließlich semantischer Verankerung, sphärischer Lokalisierung, Referenzrahmentransformation und tiefenbewusstem 3D-Raumverständnis. Anschließend bauen wir eine groß angelegte Metadaten-Erstellungspipeline auf, die gemischte ERP-Panoramen in geometriebewusste, sprachfundierte und tiefenbewusste Aufsichtsdaten umwandelt, und instanziieren diese Signale als fähigkeitsorientierte Instruktionstuning-Daten. Auf der Modellseite führen wir PanoWorld mit sphärischer räumlicher Kreuzaufmerksamkeit ein, die sphärische Geometrie in den visuellen Strom einbringt. Darüber hinaus konstruieren wir PanoSpace-Bench, einen diagnostischen Benchmark zur Bewertung des ERP-nativen räumlichen Denkens. Experimente zeigen, dass PanoWorld sowohl proprietäre als auch Open-Source-Baselines auf den Benchmarks PanoSpace-Bench, H* Bench und R2R-CE Val-Unseen deutlich übertrifft. Diese Ergebnisse belegen, dass robustes Panorama-Denken dedizierte pano-native Aufsichtsdaten und geometriebewusste Modellanpassung erfordert. Der gesamte Quellcode und die vorgeschlagenen Daten werden öffentlich verfügbar gemacht.

English

Multimodal large laboratory models (MLLMs) still struggle with spatial understanding under the dominant perspective-image paradigm, which inherits the narrow field of view of human-like perception. For navigation, robotic search, and 3D scene understanding, 360-degree panoramic sensing offers a form of supersensing by capturing the entire surrounding environment at once. However, existing MLLM pipelines typically decompose panoramas into multiple perspective views, leaving the spherical structure of equirectangular projection (ERP) largely implicit. In this paper, we study pano-native understanding, which requires an MLLM to reason over an ERP panorama as a continuous, observer-centered space. To this end, we first define the key abilities for pano-native understanding, including semantic anchoring, spherical localization, reference-frame transformation, and depth-aware 3D spatial reasoning. We then build a large-scale metadata construction pipeline that converts mixed-source ERP panoramas into geometry-aware, language-grounded, and depth-aware supervision, and instantiate these signals as capability-aligned instruction tuning data. On the model side, we introduce PanoWorld with Spherical Spatial Cross-Attention, which injects spherical geometry into the visual stream. We further construct PanoSpace-Bench, a diagnostic benchmark for evaluating ERP-native spatial reasoning. Experiments show that PanoWorld substantially outperforms both proprietary and open-source baselines on PanoSpace-Bench, H* Bench, and R2R-CE Val-Unseen benchmarks. These results demonstrate that robust panoramic reasoning requires dedicated pano-native supervision and geometry-aware model adaptation. All source code and proposed data will be publicly released.