SPATIALGEN: Layout-gesteuerte 3D-Innenraumgenerierung

papers.abstract

Die Erstellung hochwertiger 3D-Modelle von Innenräumen ist entscheidend für Anwendungen in den Bereichen Design, Virtual Reality und Robotik. Allerdings bleibt die manuelle 3D-Modellierung zeitaufwendig und arbeitsintensiv. Obwohl jüngste Fortschritte in der generativen KI die automatisierte Szeneriesynthese ermöglicht haben, stehen bestehende Methoden oft vor Herausforderungen bei der Balance zwischen visueller Qualität, Vielfalt, semantischer Konsistenz und Benutzerkontrolle. Ein wesentlicher Engpass ist das Fehlen eines groß angelegten, hochwertigen Datensatzes, der speziell für diese Aufgabe entwickelt wurde. Um diese Lücke zu schließen, stellen wir einen umfassenden synthetischen Datensatz vor, der 12.328 strukturierte annotierte Szenen mit 57.440 Räumen und 4,7 Millionen fotorealistischen 2D-Renderings umfasst. Basierend auf diesem Datensatz präsentieren wir SpatialGen, ein neuartiges Multi-View-Multi-Modal-Diffusionsmodell, das realistische und semantisch konsistente 3D-Innenraumszenen generiert. Ausgehend von einem 3D-Layout und einem Referenzbild (abgeleitet aus einer Textaufforderung) synthetisiert unser Modell das Erscheinungsbild (Farbbild), die Geometrie (Szenenkoordinatenkarte) und die Semantik (semantische Segmentierungskarte) aus beliebigen Blickwinkeln, wobei die räumliche Konsistenz über die Modalitäten hinweg erhalten bleibt. In unseren Experimenten erzielt SpatialGen durchweg überlegene Ergebnisse im Vergleich zu früheren Methoden. Wir stellen unsere Daten und Modelle als Open Source zur Verfügung, um die Gemeinschaft zu stärken und das Feld der Innenraumerkennung und -generierung voranzutreiben.

English

Creating high-fidelity 3D models of indoor environments is essential for applications in design, virtual reality, and robotics. However, manual 3D modeling remains time-consuming and labor-intensive. While recent advances in generative AI have enabled automated scene synthesis, existing methods often face challenges in balancing visual quality, diversity, semantic consistency, and user control. A major bottleneck is the lack of a large-scale, high-quality dataset tailored to this task. To address this gap, we introduce a comprehensive synthetic dataset, featuring 12,328 structured annotated scenes with 57,440 rooms, and 4.7M photorealistic 2D renderings. Leveraging this dataset, we present SpatialGen, a novel multi-view multi-modal diffusion model that generates realistic and semantically consistent 3D indoor scenes. Given a 3D layout and a reference image (derived from a text prompt), our model synthesizes appearance (color image), geometry (scene coordinate map), and semantic (semantic segmentation map) from arbitrary viewpoints, while preserving spatial consistency across modalities. SpatialGen consistently generates superior results to previous methods in our experiments. We are open-sourcing our data and models to empower the community and advance the field of indoor scene understanding and generation.

SPATIALGEN: Layout-gesteuerte 3D-Innenraumgenerierung

SPATIALGEN: Layout-guided 3D Indoor Scene Generation

papers.abstract

Support