SPATIALGEN : Génération de scènes intérieures 3D guidée par la disposition spatiale

papers.abstract

La création de modèles 3D haute fidélité d'environnements intérieurs est essentielle pour des applications dans les domaines de la conception, de la réalité virtuelle et de la robotique. Cependant, la modélisation 3D manuelle reste chronophage et laborieuse. Bien que les récents progrès en intelligence artificielle générative aient permis la synthèse automatisée de scènes, les méthodes existantes rencontrent souvent des difficultés à équilibrer qualité visuelle, diversité, cohérence sémantique et contrôle utilisateur. Un frein majeur réside dans l'absence d'un jeu de données à grande échelle et de haute qualité spécifiquement adapté à cette tâche. Pour combler cette lacune, nous introduisons un jeu de données synthétique complet, comprenant 12 328 scènes structurées annotées avec 57 440 pièces et 4,7 millions de rendus 2D photoréalistes. En exploitant ce jeu de données, nous présentons SpatialGen, un nouveau modèle de diffusion multi-vues et multi-modal qui génère des scènes intérieures 3D réalistes et sémantiquement cohérentes. À partir d'une disposition 3D et d'une image de référence (dérivée d'une invite textuelle), notre modèle synthétise l'apparence (image en couleur), la géométrie (carte des coordonnées de la scène) et la sémantique (carte de segmentation sémantique) depuis des points de vue arbitraires, tout en préservant la cohérence spatiale entre les modalités. SpatialGen génère systématiquement des résultats supérieurs aux méthodes précédentes dans nos expériences. Nous mettons à disposition nos données et modèles en open source pour renforcer la communauté et faire progresser le domaine de la compréhension et de la génération de scènes intérieures.

English

Creating high-fidelity 3D models of indoor environments is essential for applications in design, virtual reality, and robotics. However, manual 3D modeling remains time-consuming and labor-intensive. While recent advances in generative AI have enabled automated scene synthesis, existing methods often face challenges in balancing visual quality, diversity, semantic consistency, and user control. A major bottleneck is the lack of a large-scale, high-quality dataset tailored to this task. To address this gap, we introduce a comprehensive synthetic dataset, featuring 12,328 structured annotated scenes with 57,440 rooms, and 4.7M photorealistic 2D renderings. Leveraging this dataset, we present SpatialGen, a novel multi-view multi-modal diffusion model that generates realistic and semantically consistent 3D indoor scenes. Given a 3D layout and a reference image (derived from a text prompt), our model synthesizes appearance (color image), geometry (scene coordinate map), and semantic (semantic segmentation map) from arbitrary viewpoints, while preserving spatial consistency across modalities. SpatialGen consistently generates superior results to previous methods in our experiments. We are open-sourcing our data and models to empower the community and advance the field of indoor scene understanding and generation.

SPATIALGEN : Génération de scènes intérieures 3D guidée par la disposition spatiale

SPATIALGEN: Layout-guided 3D Indoor Scene Generation

papers.abstract

Support