ChatPaper.aiChatPaper

PanoWorld: Генеративная пространственная модель мира для согласованного синтеза панорамы всего дома

PanoWorld: A Generative Spatial World Model for Consistent Whole-House Panorama Synthesis

May 19, 2026
Авторы: Jinrang Jia, Zhenjia Li, Yijiang Hu, Yifeng Shi
cs.AI

Аннотация

Генерация согласованного виртуального тура по всему дому на основе плана этажа и стилевого референса требует как фотореалистичных панорам, так и пространственной согласованности между видами. Чисто 2D-генераторы создают привлекательные отдельные панорамы, но при изменении точки обзора переосмысливают геометрию и материалы, тогда как монолитная 3D-генерация становится дорогостоящей и теряет мелкие текстуры в масштабе нескольких комнат. Мы представляем PanoWorld — генеративную пространственную мировую модель, которая рассматривает синтез всего дома как авторегрессионную генерацию узловых 360-градусных панорам, соответствующую дискретной навигации, используемой в реальных продуктах виртуальных туров. PanoWorld использует 3D-оболочку, полученную из плана этажа, в качестве глобального геометрического прокси, и динамический кэш 3D Gaussian Splatting в качестве визуализируемой пространственной памяти. Прямосвязная панорамная LRM, предназначенная для метрических многокомнатных 360-градусных входных данных, преобразует сгенерированные панорамы в локальные обновления 3DGS, в то время как Room-aware Group Attention подавляет межкомнатную интерференцию признаков. Топологически-осведомленная прогрессивная стратегия кэширования объединяет эти локальные обновления без повторной реконструкции всей истории. За счет разделения управления геометрией на основе оболочки и визуальной памяти, отображаемой из кэша, PanoWorld сохраняет качество высокочастотного 2D-синтеза, одновременно улучшая согласованность компоновки и материалов между узлами. Ссылка на проект: https://jjrcn.github.io/PanoWorld-project-home/
English
Generating a consistent whole-house VR tour from a floorplan and style reference requires both photorealistic panoramas and cross-view spatial coherence. Pure 2D generators produce appealing single panoramas but re-imagine geometry and materials when the viewpoint changes, whereas monolithic 3D generation becomes expensive and loses fine texture at multi-room scale. We introduce PanoWorld, a generative spatial world model that treats whole-house synthesis as autoregressive generation of node-based 360-degree panoramas, matching the discrete navigation used by real VR tour products. PanoWorld uses a floorplan-derived 3D shell as a global geometric proxy and a dynamic 3D Gaussian Splatting cache as renderable spatial memory. A feed-forward panoramic LRM designed for metric-scale multi-room 360-degree inputs lifts generated panoramas into local 3DGS updates, while Room-aware Group Attention suppresses cross-room feature interference. A topology-aware progressive caching strategy fuses these local updates without repeatedly reconstructing the full history. By decoupling shell-based geometry guidance from cache-rendered visual memory, PanoWorld preserves high-frequency 2D synthesis quality while improving cross-node layout and material consistency. The project link is https://jjrcn.github.io/PanoWorld-project-home/