ChatPaper.aiChatPaper

PanoWorld: Um Modelo de Mundo Espacial Generativo para Síntese Consistente de Panorama de Casa Inteira

PanoWorld: A Generative Spatial World Model for Consistent Whole-House Panorama Synthesis

May 19, 2026
Autores: Jinrang Jia, Zhenjia Li, Yijiang Hu, Yifeng Shi
cs.AI

Resumo

Gerar um tour VR completo e consistente de uma residência a partir de uma planta baixa e de uma referência de estilo exige tanto panoramas fotorrealistas quanto coerência espacial entre vistas. Geradores puramente 2D produzem panoramas individuais atraentes, mas reimaginam geometria e materiais quando o ponto de vista muda, enquanto a geração monolítica 3D torna-se custosa e perde texturas finas em escala de múltiplos cômodos. Apresentamos o PanoWorld, um modelo generativo de mundo espacial que trata a síntese de uma casa inteira como geração autorregressiva de panoramas de 360 graus baseados em nós, correspondendo à navegação discreta usada por produtos reais de tour VR. O PanoWorld utiliza uma casca 3D derivada da planta baixa como proxy geométrico global e um cache dinâmico de Gaussian Splatting 3D como memória espacial renderizável. Um LRM panorâmico feed-forward projetado para entradas de 360 graus em escala métrica para múltiplos cômodos eleva os panoramas gerados a atualizações locais de 3DGS, enquanto a Atenção de Grupo Consciente de Cômodos suprime a interferência de características entre cômodos. Uma estratégia de cache progressivo ciente da topologia funde essas atualizações locais sem reconstruir repetidamente o histórico completo. Ao desacoplar a orientação geométrica baseada em casca da memória visual renderizada por cache, o PanoWorld preserva a qualidade de síntese 2D de alta frequência enquanto melhora a consistência de layout e material entre nós. O link do projeto é https://jjrcn.github.io/PanoWorld-project-home/.
English
Generating a consistent whole-house VR tour from a floorplan and style reference requires both photorealistic panoramas and cross-view spatial coherence. Pure 2D generators produce appealing single panoramas but re-imagine geometry and materials when the viewpoint changes, whereas monolithic 3D generation becomes expensive and loses fine texture at multi-room scale. We introduce PanoWorld, a generative spatial world model that treats whole-house synthesis as autoregressive generation of node-based 360-degree panoramas, matching the discrete navigation used by real VR tour products. PanoWorld uses a floorplan-derived 3D shell as a global geometric proxy and a dynamic 3D Gaussian Splatting cache as renderable spatial memory. A feed-forward panoramic LRM designed for metric-scale multi-room 360-degree inputs lifts generated panoramas into local 3DGS updates, while Room-aware Group Attention suppresses cross-room feature interference. A topology-aware progressive caching strategy fuses these local updates without repeatedly reconstructing the full history. By decoupling shell-based geometry guidance from cache-rendered visual memory, PanoWorld preserves high-frequency 2D synthesis quality while improving cross-node layout and material consistency. The project link is https://jjrcn.github.io/PanoWorld-project-home/