SPATIALGEN: Layout-gesteuerte 3D-Innenraumgenerierung
SPATIALGEN: Layout-guided 3D Indoor Scene Generation
September 18, 2025
papers.authors: Chuan Fang, Heng Li, Yixun Liang, Jia Zheng, Yongsen Mao, Yuan Liu, Rui Tang, Zihan Zhou, Ping Tan
cs.AI
papers.abstract
Die Erstellung hochwertiger 3D-Modelle von Innenräumen ist entscheidend für Anwendungen in den Bereichen Design, Virtual Reality und Robotik. Allerdings bleibt die manuelle 3D-Modellierung zeitaufwendig und arbeitsintensiv. Obwohl jüngste Fortschritte in der generativen KI die automatisierte Szeneriesynthese ermöglicht haben, stehen bestehende Methoden oft vor Herausforderungen bei der Balance zwischen visueller Qualität, Vielfalt, semantischer Konsistenz und Benutzerkontrolle. Ein wesentlicher Engpass ist das Fehlen eines groß angelegten, hochwertigen Datensatzes, der speziell für diese Aufgabe entwickelt wurde. Um diese Lücke zu schließen, stellen wir einen umfassenden synthetischen Datensatz vor, der 12.328 strukturierte annotierte Szenen mit 57.440 Räumen und 4,7 Millionen fotorealistischen 2D-Renderings umfasst. Basierend auf diesem Datensatz präsentieren wir SpatialGen, ein neuartiges Multi-View-Multi-Modal-Diffusionsmodell, das realistische und semantisch konsistente 3D-Innenraumszenen generiert. Ausgehend von einem 3D-Layout und einem Referenzbild (abgeleitet aus einer Textaufforderung) synthetisiert unser Modell das Erscheinungsbild (Farbbild), die Geometrie (Szenenkoordinatenkarte) und die Semantik (semantische Segmentierungskarte) aus beliebigen Blickwinkeln, wobei die räumliche Konsistenz über die Modalitäten hinweg erhalten bleibt. In unseren Experimenten erzielt SpatialGen durchweg überlegene Ergebnisse im Vergleich zu früheren Methoden. Wir stellen unsere Daten und Modelle als Open Source zur Verfügung, um die Gemeinschaft zu stärken und das Feld der Innenraumerkennung und -generierung voranzutreiben.
English
Creating high-fidelity 3D models of indoor environments is essential for
applications in design, virtual reality, and robotics. However, manual 3D
modeling remains time-consuming and labor-intensive. While recent advances in
generative AI have enabled automated scene synthesis, existing methods often
face challenges in balancing visual quality, diversity, semantic consistency,
and user control. A major bottleneck is the lack of a large-scale, high-quality
dataset tailored to this task. To address this gap, we introduce a
comprehensive synthetic dataset, featuring 12,328 structured annotated scenes
with 57,440 rooms, and 4.7M photorealistic 2D renderings. Leveraging this
dataset, we present SpatialGen, a novel multi-view multi-modal diffusion model
that generates realistic and semantically consistent 3D indoor scenes. Given a
3D layout and a reference image (derived from a text prompt), our model
synthesizes appearance (color image), geometry (scene coordinate map), and
semantic (semantic segmentation map) from arbitrary viewpoints, while
preserving spatial consistency across modalities. SpatialGen consistently
generates superior results to previous methods in our experiments. We are
open-sourcing our data and models to empower the community and advance the
field of indoor scene understanding and generation.