ChatPaper.aiChatPaper

SPATIALGEN: Lay-out-gestuurde 3D Binnenscène Generatie

SPATIALGEN: Layout-guided 3D Indoor Scene Generation

September 18, 2025
Auteurs: Chuan Fang, Heng Li, Yixun Liang, Jia Zheng, Yongsen Mao, Yuan Liu, Rui Tang, Zihan Zhou, Ping Tan
cs.AI

Samenvatting

Het creëren van hoogwaardige 3D-modellen van binnenruimtes is essentieel voor toepassingen in ontwerp, virtual reality en robotica. Echter, handmatige 3D-modellering blijft tijdrovend en arbeidsintensief. Hoewel recente vooruitgang in generatieve AI geautomatiseerde scènesynthese mogelijk heeft gemaakt, kampen bestaande methoden vaak met uitdagingen bij het balanceren van visuele kwaliteit, diversiteit, semantische consistentie en gebruikerscontrole. Een belangrijke beperking is het ontbreken van een grootschalige, hoogwaardige dataset die specifiek is afgestemd op deze taak. Om deze kloof te dichten, introduceren we een uitgebreide synthetische dataset, met 12.328 gestructureerde geannoteerde scènes met 57.440 kamers en 4,7 miljoen fotorealistische 2D-renders. Gebruikmakend van deze dataset presenteren we SpatialGen, een nieuw multi-view multi-modale diffusiemodel dat realistische en semantisch consistente 3D-binnenscènes genereert. Gegeven een 3D-lay-out en een referentiebeeld (afgeleid van een tekstprompt), synthetiseert ons model uiterlijk (kleurenbeeld), geometrie (scènecoördinatenkaart) en semantiek (semantische segmentatiekaart) vanuit willekeurige gezichtspunten, terwijl ruimtelijke consistentie tussen modaliteiten behouden blijft. SpatialGen genereert in onze experimenten consequent superieure resultaten ten opzichte van eerdere methoden. We maken onze data en modellen open source om de gemeenschap te empoweren en het vakgebied van inzicht en generatie van binnenruimtes vooruit te helpen.
English
Creating high-fidelity 3D models of indoor environments is essential for applications in design, virtual reality, and robotics. However, manual 3D modeling remains time-consuming and labor-intensive. While recent advances in generative AI have enabled automated scene synthesis, existing methods often face challenges in balancing visual quality, diversity, semantic consistency, and user control. A major bottleneck is the lack of a large-scale, high-quality dataset tailored to this task. To address this gap, we introduce a comprehensive synthetic dataset, featuring 12,328 structured annotated scenes with 57,440 rooms, and 4.7M photorealistic 2D renderings. Leveraging this dataset, we present SpatialGen, a novel multi-view multi-modal diffusion model that generates realistic and semantically consistent 3D indoor scenes. Given a 3D layout and a reference image (derived from a text prompt), our model synthesizes appearance (color image), geometry (scene coordinate map), and semantic (semantic segmentation map) from arbitrary viewpoints, while preserving spatial consistency across modalities. SpatialGen consistently generates superior results to previous methods in our experiments. We are open-sourcing our data and models to empower the community and advance the field of indoor scene understanding and generation.
PDF264September 22, 2025