PanoWorld: Ein generatives räumliches Weltmodell zur konsistenten Ganzhaus-Panorama-Synthese
PanoWorld: A Generative Spatial World Model for Consistent Whole-House Panorama Synthesis
May 19, 2026
Autoren: Jinrang Jia, Zhenjia Li, Yijiang Hu, Yifeng Shi
cs.AI
Zusammenfassung
Die Erstellung eines konsistenten VR-Rundgangs für ein gesamtes Haus aus einem Grundriss und einer Stilreferenz erfordert sowohl fotorealistische Panoramen als auch räumliche Kohärenz über verschiedene Ansichten hinweg. Reine 2D-Generatoren erzeugen ansprechende Einzelpanoramen, stellen jedoch Geometrie und Materialien bei einem Wechsel des Blickwinkels neu dar, wohingegen monolithische 3D-Generierung teuer wird und auf der Skala mehrerer Räume feine Texturen verliert. Wir stellen PanoWorld vor, ein generatives räumliches Weltmodell, das die Synthese eines gesamten Hauses als autoregressive Erzeugung von knotenbasierten 360-Grad-Panoramen behandelt und damit der diskreten Navigation entspricht, die von echten VR-Rundgangprodukten verwendet wird. PanoWorld verwendet eine aus dem Grundriss abgeleitete 3D-Hülle als globale geometrische Stellvertreterin und einen dynamischen 3D-Gaussian-Splatting-Cache als renderbaren räumlichen Speicher. Ein Feed-Forward-Panorama-LRM, das für metrische mehrräumige 360-Grad-Eingaben ausgelegt ist, transformiert erzeugte Panoramen in lokale 3DGS-Updates, während raumbewusste Gruppenaufmerksamkeit Interferenzen zwischen Räumen unterdrückt. Eine topologiebewusste progressive Caching-Strategie fusioniert diese lokalen Aktualisierungen, ohne die vollständige Historie wiederholt zu rekonstruieren. Durch die Entkopplung der hüllenbasierten Geometrieführung vom cache-gerenderten visuellen Speicher bewahrt PanoWorld die hochfrequente 2D-Synthesequalität, während gleichzeitig die knotenübergreifende Layout- und Materialkonsistenz verbessert wird. Der Projektlink lautet https://jjrcn.github.io/PanoWorld-project-home/
English
Generating a consistent whole-house VR tour from a floorplan and style reference requires both photorealistic panoramas and cross-view spatial coherence. Pure 2D generators produce appealing single panoramas but re-imagine geometry and materials when the viewpoint changes, whereas monolithic 3D generation becomes expensive and loses fine texture at multi-room scale. We introduce PanoWorld, a generative spatial world model that treats whole-house synthesis as autoregressive generation of node-based 360-degree panoramas, matching the discrete navigation used by real VR tour products. PanoWorld uses a floorplan-derived 3D shell as a global geometric proxy and a dynamic 3D Gaussian Splatting cache as renderable spatial memory. A feed-forward panoramic LRM designed for metric-scale multi-room 360-degree inputs lifts generated panoramas into local 3DGS updates, while Room-aware Group Attention suppresses cross-room feature interference. A topology-aware progressive caching strategy fuses these local updates without repeatedly reconstructing the full history. By decoupling shell-based geometry guidance from cache-rendered visual memory, PanoWorld preserves high-frequency 2D synthesis quality while improving cross-node layout and material consistency. The project link is https://jjrcn.github.io/PanoWorld-project-home/