SPATIALGEN: Generación de Escenas Interiores 3D Guiada por Diseño de Espacios
SPATIALGEN: Layout-guided 3D Indoor Scene Generation
September 18, 2025
Autores: Chuan Fang, Heng Li, Yixun Liang, Jia Zheng, Yongsen Mao, Yuan Liu, Rui Tang, Zihan Zhou, Ping Tan
cs.AI
Resumen
La creación de modelos 3D de alta fidelidad de entornos interiores es fundamental para aplicaciones en diseño, realidad virtual y robótica. Sin embargo, el modelado 3D manual sigue siendo laborioso y consume mucho tiempo. Si bien los avances recientes en IA generativa han permitido la síntesis automatizada de escenas, los métodos existentes a menudo enfrentan desafíos para equilibrar la calidad visual, la diversidad, la consistencia semántica y el control del usuario. Un cuello de botella importante es la falta de un conjunto de datos a gran escala y de alta calidad adaptado a esta tarea. Para abordar esta brecha, presentamos un conjunto de datos sintético integral, que incluye 12,328 escenas estructuradas y anotadas con 57,440 habitaciones y 4.7 millones de renderizaciones fotorrealistas en 2D. Aprovechando este conjunto de datos, presentamos SpatialGen, un novedoso modelo de difusión multimodal y multivista que genera escenas interiores 3D realistas y semánticamente consistentes. Dado un diseño 3D y una imagen de referencia (derivada de un texto descriptivo), nuestro modelo sintetiza la apariencia (imagen en color), la geometría (mapa de coordenadas de la escena) y la semántica (mapa de segmentación semántica) desde puntos de vista arbitrarios, manteniendo la consistencia espacial entre las modalidades. SpatialGen genera consistentemente resultados superiores a los métodos anteriores en nuestros experimentos. Estamos liberando nuestros datos y modelos como código abierto para empoderar a la comunidad y avanzar en el campo de la comprensión y generación de escenas interiores.
English
Creating high-fidelity 3D models of indoor environments is essential for
applications in design, virtual reality, and robotics. However, manual 3D
modeling remains time-consuming and labor-intensive. While recent advances in
generative AI have enabled automated scene synthesis, existing methods often
face challenges in balancing visual quality, diversity, semantic consistency,
and user control. A major bottleneck is the lack of a large-scale, high-quality
dataset tailored to this task. To address this gap, we introduce a
comprehensive synthetic dataset, featuring 12,328 structured annotated scenes
with 57,440 rooms, and 4.7M photorealistic 2D renderings. Leveraging this
dataset, we present SpatialGen, a novel multi-view multi-modal diffusion model
that generates realistic and semantically consistent 3D indoor scenes. Given a
3D layout and a reference image (derived from a text prompt), our model
synthesizes appearance (color image), geometry (scene coordinate map), and
semantic (semantic segmentation map) from arbitrary viewpoints, while
preserving spatial consistency across modalities. SpatialGen consistently
generates superior results to previous methods in our experiments. We are
open-sourcing our data and models to empower the community and advance the
field of indoor scene understanding and generation.