SPATIALGEN : Génération de scènes intérieures 3D guidée par la disposition spatiale
SPATIALGEN: Layout-guided 3D Indoor Scene Generation
September 18, 2025
papers.authors: Chuan Fang, Heng Li, Yixun Liang, Jia Zheng, Yongsen Mao, Yuan Liu, Rui Tang, Zihan Zhou, Ping Tan
cs.AI
papers.abstract
La création de modèles 3D haute fidélité d'environnements intérieurs est essentielle pour des applications dans les domaines de la conception, de la réalité virtuelle et de la robotique. Cependant, la modélisation 3D manuelle reste chronophage et laborieuse. Bien que les récents progrès en intelligence artificielle générative aient permis la synthèse automatisée de scènes, les méthodes existantes rencontrent souvent des difficultés à équilibrer qualité visuelle, diversité, cohérence sémantique et contrôle utilisateur. Un frein majeur réside dans l'absence d'un jeu de données à grande échelle et de haute qualité spécifiquement adapté à cette tâche. Pour combler cette lacune, nous introduisons un jeu de données synthétique complet, comprenant 12 328 scènes structurées annotées avec 57 440 pièces et 4,7 millions de rendus 2D photoréalistes. En exploitant ce jeu de données, nous présentons SpatialGen, un nouveau modèle de diffusion multi-vues et multi-modal qui génère des scènes intérieures 3D réalistes et sémantiquement cohérentes. À partir d'une disposition 3D et d'une image de référence (dérivée d'une invite textuelle), notre modèle synthétise l'apparence (image en couleur), la géométrie (carte des coordonnées de la scène) et la sémantique (carte de segmentation sémantique) depuis des points de vue arbitraires, tout en préservant la cohérence spatiale entre les modalités. SpatialGen génère systématiquement des résultats supérieurs aux méthodes précédentes dans nos expériences. Nous mettons à disposition nos données et modèles en open source pour renforcer la communauté et faire progresser le domaine de la compréhension et de la génération de scènes intérieures.
English
Creating high-fidelity 3D models of indoor environments is essential for
applications in design, virtual reality, and robotics. However, manual 3D
modeling remains time-consuming and labor-intensive. While recent advances in
generative AI have enabled automated scene synthesis, existing methods often
face challenges in balancing visual quality, diversity, semantic consistency,
and user control. A major bottleneck is the lack of a large-scale, high-quality
dataset tailored to this task. To address this gap, we introduce a
comprehensive synthetic dataset, featuring 12,328 structured annotated scenes
with 57,440 rooms, and 4.7M photorealistic 2D renderings. Leveraging this
dataset, we present SpatialGen, a novel multi-view multi-modal diffusion model
that generates realistic and semantically consistent 3D indoor scenes. Given a
3D layout and a reference image (derived from a text prompt), our model
synthesizes appearance (color image), geometry (scene coordinate map), and
semantic (semantic segmentation map) from arbitrary viewpoints, while
preserving spatial consistency across modalities. SpatialGen consistently
generates superior results to previous methods in our experiments. We are
open-sourcing our data and models to empower the community and advance the
field of indoor scene understanding and generation.