3D-scènegeneratie: Een Overzicht
3D Scene Generation: A Survey
May 8, 2025
Auteurs: Beichen Wen, Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
cs.AI
Samenvatting
3D-scènegeneratie streeft ernaar ruimtelijk gestructureerde, semantisch betekenisvolle en fotorealistische omgevingen te synthetiseren voor toepassingen zoals immersieve media, robotica, autonoom rijden en embodied AI. Vroege methoden gebaseerd op procedurele regels boden schaalbaarheid maar beperkte diversiteit. Recente vooruitgang in diepe generatieve modellen (bijv. GANs, diffusiemodellen) en 3D-representaties (bijv. NeRF, 3D Gaussians) hebben het mogelijk gemaakt om distributies van echte wereldscènes te leren, wat de getrouwheid, diversiteit en consistentie tussen verschillende gezichtspunten verbetert. Recente ontwikkelingen zoals diffusiemodellen overbruggen 3D-scènesynthese en fotorealisme door generatie te herformuleren als beeld- of videosyntheseproblemen. Dit overzicht biedt een systematisch overzicht van state-of-the-art benaderingen, georganiseerd in vier paradigma's: procedurele generatie, neurale 3D-gebaseerde generatie, beeldgebaseerde generatie en videogebaseerde generatie. We analyseren hun technische fundamenten, afwegingen en representatieve resultaten, en bespreken veelgebruikte datasets, evaluatieprotocollen en downstream-toepassingen. We sluiten af met een bespreking van belangrijke uitdagingen op het gebied van generatiecapaciteit, 3D-representatie, data en annotaties, en evaluatie, en schetsen veelbelovende richtingen zoals hogere getrouwheid, fysica-bewuste en interactieve generatie, en geïntegreerde perceptie-generatiemodellen. Dit overzicht organiseert recente ontwikkelingen in 3D-scènegeneratie en belicht veelbelovende richtingen op het snijvlak van generatieve AI, 3D-visie en embodied intelligence. Om voortdurende ontwikkelingen bij te houden, onderhouden we een actueel projectpagina: https://github.com/hzxie/Awesome-3D-Scene-Generation.
English
3D scene generation seeks to synthesize spatially structured, semantically
meaningful, and photorealistic environments for applications such as immersive
media, robotics, autonomous driving, and embodied AI. Early methods based on
procedural rules offered scalability but limited diversity. Recent advances in
deep generative models (e.g., GANs, diffusion models) and 3D representations
(e.g., NeRF, 3D Gaussians) have enabled the learning of real-world scene
distributions, improving fidelity, diversity, and view consistency. Recent
advances like diffusion models bridge 3D scene synthesis and photorealism by
reframing generation as image or video synthesis problems. This survey provides
a systematic overview of state-of-the-art approaches, organizing them into four
paradigms: procedural generation, neural 3D-based generation, image-based
generation, and video-based generation. We analyze their technical foundations,
trade-offs, and representative results, and review commonly used datasets,
evaluation protocols, and downstream applications. We conclude by discussing
key challenges in generation capacity, 3D representation, data and annotations,
and evaluation, and outline promising directions including higher fidelity,
physics-aware and interactive generation, and unified perception-generation
models. This review organizes recent advances in 3D scene generation and
highlights promising directions at the intersection of generative AI, 3D
vision, and embodied intelligence. To track ongoing developments, we maintain
an up-to-date project page:
https://github.com/hzxie/Awesome-3D-Scene-Generation.