PanoWorld : Un modèle spatial génératif du monde pour la synthèse cohérente de panoramas de maison entière
PanoWorld: A Generative Spatial World Model for Consistent Whole-House Panorama Synthesis
May 19, 2026
Auteurs: Jinrang Jia, Zhenjia Li, Yijiang Hu, Yifeng Shi
cs.AI
Résumé
La génération d'une visite VR cohérente à l'échelle d'une maison entière à partir d'un plan d'étage et d'une référence stylistique nécessite à la fois des panoramas photoréalistes et une cohérence spatiale inter-vues. Les générateurs purement 2D produisent des panoramas uniques attrayants mais réinventent la géométrie et les matériaux lorsque le point de vue change, tandis que la génération 3D monolithique devient coûteuse et perd les détails fins à l'échelle de plusieurs pièces. Nous présentons PanoWorld, un modèle génératif de monde spatial qui traite la synthèse d'une maison entière comme une génération autorégressive de panoramas à 360 degrés basés sur des nœuds, correspondant à la navigation discrète utilisée par les produits réels de visites VR. PanoWorld utilise une coque 3D dérivée du plan d'étage comme proxy géométrique global et un cache dynamique de 3D Gaussian Splatting comme mémoire spatiale rendue. Un LRM panoramique feed-forward conçu pour des entrées 360 degrés multi-pièces à l'échelle métrique élève les panoramas générés en mises à jour locales du 3DGS, tandis que l'Attention Groupée par Pièce (Room-aware Group Attention) supprime les interférences de caractéristiques entre pièces. Une stratégie de mise en cache progressive consciente de la topologie fusionne ces mises à jour locales sans reconstruire répétitivement l'historique complet. En dissociant le guidage géométrique basé sur la coque de la mémoire visuelle rendue par cache, PanoWorld préserve la qualité de synthèse 2D haute fréquence tout en améliorant la cohérence de la disposition et des matériaux entre les nœuds. Le lien du projet est https://jjrcn.github.io/PanoWorld-project-home/
English
Generating a consistent whole-house VR tour from a floorplan and style reference requires both photorealistic panoramas and cross-view spatial coherence. Pure 2D generators produce appealing single panoramas but re-imagine geometry and materials when the viewpoint changes, whereas monolithic 3D generation becomes expensive and loses fine texture at multi-room scale. We introduce PanoWorld, a generative spatial world model that treats whole-house synthesis as autoregressive generation of node-based 360-degree panoramas, matching the discrete navigation used by real VR tour products. PanoWorld uses a floorplan-derived 3D shell as a global geometric proxy and a dynamic 3D Gaussian Splatting cache as renderable spatial memory. A feed-forward panoramic LRM designed for metric-scale multi-room 360-degree inputs lifts generated panoramas into local 3DGS updates, while Room-aware Group Attention suppresses cross-room feature interference. A topology-aware progressive caching strategy fuses these local updates without repeatedly reconstructing the full history. By decoupling shell-based geometry guidance from cache-rendered visual memory, PanoWorld preserves high-frequency 2D synthesis quality while improving cross-node layout and material consistency. The project link is https://jjrcn.github.io/PanoWorld-project-home/