PanoWorld: Un modelo generativo de mundo espacial para la síntesis consistente de panoramas de toda la casa
PanoWorld: A Generative Spatial World Model for Consistent Whole-House Panorama Synthesis
May 19, 2026
Autores: Jinrang Jia, Zhenjia Li, Yijiang Hu, Yifeng Shi
cs.AI
Resumen
Generar un recorrido virtual completo de una vivienda a partir de un plano y una referencia de estilo requiere tanto panorámicas fotorrealistas como coherencia espacial entre vistas. Los generadores puramente 2D producen panorámicas individuales atractivas, pero reinterpretan la geometría y los materiales al cambiar el punto de vista, mientras que la generación 3D monolítica resulta costosa y pierde texturas finas a escala de múltiples habitaciones. Presentamos PanoWorld, un modelo generativo de mundo espacial que trata la síntesis de una vivienda completa como la generación autorregresiva de panorámicas de 360 grados basadas en nodos, en concordancia con la navegación discreta utilizada en productos reales de recorridos virtuales. PanoWorld emplea una cáscara 3D derivada del plano como proxy geométrico global y un caché dinámico de Gaussian Splatting 3D como memoria espacial renderizable. Un LRM panorámico feed-forward diseñado para entradas de 360 grados multi-habitación a escala métrica transforma las panorámicas generadas en actualizaciones locales de 3DGS, mientras que la Atención Grupal con Conciencia de Habitación suprime la interferencia de características entre habitaciones. Una estrategia de almacenamiento en caché progresivo consciente de la topología fusiona estas actualizaciones locales sin reconstruir repetidamente el historial completo. Al desacoplar la guía geométrica basada en cáscara de la memoria visual renderizada en caché, PanoWorld preserva la calidad de síntesis 2D de alta frecuencia a la vez que mejora la coherencia de diseño y material entre nodos. El enlace del proyecto es https://jjrcn.github.io/PanoWorld-project-home/
English
Generating a consistent whole-house VR tour from a floorplan and style reference requires both photorealistic panoramas and cross-view spatial coherence. Pure 2D generators produce appealing single panoramas but re-imagine geometry and materials when the viewpoint changes, whereas monolithic 3D generation becomes expensive and loses fine texture at multi-room scale. We introduce PanoWorld, a generative spatial world model that treats whole-house synthesis as autoregressive generation of node-based 360-degree panoramas, matching the discrete navigation used by real VR tour products. PanoWorld uses a floorplan-derived 3D shell as a global geometric proxy and a dynamic 3D Gaussian Splatting cache as renderable spatial memory. A feed-forward panoramic LRM designed for metric-scale multi-room 360-degree inputs lifts generated panoramas into local 3DGS updates, while Room-aware Group Attention suppresses cross-room feature interference. A topology-aware progressive caching strategy fuses these local updates without repeatedly reconstructing the full history. By decoupling shell-based geometry guidance from cache-rendered visual memory, PanoWorld preserves high-frequency 2D synthesis quality while improving cross-node layout and material consistency. The project link is https://jjrcn.github.io/PanoWorld-project-home/