SPATIALGEN: Geração de Cenas Internas 3D Orientada por Layout
SPATIALGEN: Layout-guided 3D Indoor Scene Generation
September 18, 2025
Autores: Chuan Fang, Heng Li, Yixun Liang, Jia Zheng, Yongsen Mao, Yuan Liu, Rui Tang, Zihan Zhou, Ping Tan
cs.AI
Resumo
A criação de modelos 3D de alta fidelidade para ambientes internos é essencial para aplicações em design, realidade virtual e robótica. No entanto, a modelagem 3D manual continua sendo demorada e trabalhosa. Embora avanços recentes em IA generativa tenham possibilitado a síntese automatizada de cenas, os métodos existentes frequentemente enfrentam desafios ao equilibrar qualidade visual, diversidade, consistência semântica e controle do usuário. Um grande gargalo é a falta de um conjunto de dados em larga escala e de alta qualidade específico para essa tarefa. Para preencher essa lacuna, introduzimos um conjunto de dados sintético abrangente, contendo 12.328 cenas anotadas estruturadas com 57.440 cômodos e 4,7 milhões de renderizações 2D fotorrealistas. Aproveitando esse conjunto de dados, apresentamos o SpatialGen, um novo modelo de difusão multi-visão e multimodal que gera cenas internas 3D realistas e semanticamente consistentes. Dado um layout 3D e uma imagem de referência (derivada de um prompt de texto), nosso modelo sintetiza aparência (imagem colorida), geometria (mapa de coordenadas da cena) e semântica (mapa de segmentação semântica) a partir de pontos de vista arbitrários, preservando a consistência espacial entre as modalidades. O SpatialGen gera consistentemente resultados superiores aos métodos anteriores em nossos experimentos. Estamos disponibilizando nossos dados e modelos em código aberto para capacitar a comunidade e avançar o campo de compreensão e geração de cenas internas.
English
Creating high-fidelity 3D models of indoor environments is essential for
applications in design, virtual reality, and robotics. However, manual 3D
modeling remains time-consuming and labor-intensive. While recent advances in
generative AI have enabled automated scene synthesis, existing methods often
face challenges in balancing visual quality, diversity, semantic consistency,
and user control. A major bottleneck is the lack of a large-scale, high-quality
dataset tailored to this task. To address this gap, we introduce a
comprehensive synthetic dataset, featuring 12,328 structured annotated scenes
with 57,440 rooms, and 4.7M photorealistic 2D renderings. Leveraging this
dataset, we present SpatialGen, a novel multi-view multi-modal diffusion model
that generates realistic and semantically consistent 3D indoor scenes. Given a
3D layout and a reference image (derived from a text prompt), our model
synthesizes appearance (color image), geometry (scene coordinate map), and
semantic (semantic segmentation map) from arbitrary viewpoints, while
preserving spatial consistency across modalities. SpatialGen consistently
generates superior results to previous methods in our experiments. We are
open-sourcing our data and models to empower the community and advance the
field of indoor scene understanding and generation.