ChatPaper.aiChatPaper

SPATIALGEN: Generazione di scene interne 3D guidata dal layout

SPATIALGEN: Layout-guided 3D Indoor Scene Generation

September 18, 2025
Autori: Chuan Fang, Heng Li, Yixun Liang, Jia Zheng, Yongsen Mao, Yuan Liu, Rui Tang, Zihan Zhou, Ping Tan
cs.AI

Abstract

La creazione di modelli 3D ad alta fedeltà di ambienti interni è essenziale per applicazioni nel design, nella realtà virtuale e nella robotica. Tuttavia, la modellazione 3D manuale rimane dispendiosa in termini di tempo e fatica. Sebbene i recenti progressi nell'IA generativa abbiano reso possibile la sintesi automatizzata di scene, i metodi esistenti spesso incontrano difficoltà nel bilanciare qualità visiva, diversità, coerenza semantica e controllo dell'utente. Un collo di bottiglia significativo è la mancanza di un dataset su larga scala e di alta qualità specificamente progettato per questo compito. Per colmare questa lacuna, introduciamo un dataset sintetico completo, che include 12.328 scene strutturate annotate con 57.440 stanze e 4,7 milioni di rendering fotorealistici 2D. Sfruttando questo dataset, presentiamo SpatialGen, un innovativo modello di diffusione multi-vista e multi-modale che genera scene 3D interne realistiche e semanticamente coerenti. Dato un layout 3D e un'immagine di riferimento (derivata da un prompt testuale), il nostro modello sintetizza l'aspetto (immagine a colori), la geometria (mappa delle coordinate della scena) e la semantica (mappa di segmentazione semantica) da punti di vista arbitrari, preservando la coerenza spaziale tra le modalità. SpatialGen genera costantemente risultati superiori rispetto ai metodi precedenti nei nostri esperimenti. Stiamo rendendo open-source i nostri dati e modelli per potenziare la comunità e far progredire il campo della comprensione e generazione di scene interne.
English
Creating high-fidelity 3D models of indoor environments is essential for applications in design, virtual reality, and robotics. However, manual 3D modeling remains time-consuming and labor-intensive. While recent advances in generative AI have enabled automated scene synthesis, existing methods often face challenges in balancing visual quality, diversity, semantic consistency, and user control. A major bottleneck is the lack of a large-scale, high-quality dataset tailored to this task. To address this gap, we introduce a comprehensive synthetic dataset, featuring 12,328 structured annotated scenes with 57,440 rooms, and 4.7M photorealistic 2D renderings. Leveraging this dataset, we present SpatialGen, a novel multi-view multi-modal diffusion model that generates realistic and semantically consistent 3D indoor scenes. Given a 3D layout and a reference image (derived from a text prompt), our model synthesizes appearance (color image), geometry (scene coordinate map), and semantic (semantic segmentation map) from arbitrary viewpoints, while preserving spatial consistency across modalities. SpatialGen consistently generates superior results to previous methods in our experiments. We are open-sourcing our data and models to empower the community and advance the field of indoor scene understanding and generation.
PDF264September 22, 2025