3D-Szenengenerierung: Ein Überblick
3D Scene Generation: A Survey
May 8, 2025
Autoren: Beichen Wen, Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
cs.AI
Zusammenfassung
Die 3D-Szenengenerierung zielt darauf ab, räumlich strukturierte, semantisch bedeutungsvolle und fotorealistische Umgebungen für Anwendungen wie immersive Medien, Robotik, autonomes Fahren und verkörperte KI zu synthetisieren. Frühe Methoden, die auf prozeduralen Regeln basierten, boten Skalierbarkeit, jedoch nur begrenzte Vielfalt. Jüngste Fortschritte bei tiefen generativen Modellen (z.B. GANs, Diffusionsmodelle) und 3D-Darstellungen (z.B. NeRF, 3D-Gaußsche) haben das Lernen von realen Szenenverteilungen ermöglicht, wodurch die Detailtreue, Vielfalt und Blickkonsistenz verbessert wurden. Neuere Entwicklungen wie Diffusionsmodelle verbinden die 3D-Szenensynthese und den Fotorealismus, indem sie die Generierung als Bild- oder Videosyntheseprobleme neu formulieren. Dieser Überblick bietet eine systematische Zusammenfassung der modernsten Ansätze, die in vier Paradigmen organisiert werden: prozedurale Generierung, neuronale 3D-basierte Generierung, bildbasierte Generierung und videobasierte Generierung. Wir analysieren ihre technischen Grundlagen, Kompromisse und repräsentativen Ergebnisse und überprüfen häufig verwendete Datensätze, Bewertungsprotokolle und nachgelagerte Anwendungen. Abschließend diskutieren wir die wichtigsten Herausforderungen in Bezug auf die Generierungskapazität, 3D-Darstellung, Daten und Annotationen sowie Bewertung und skizzieren vielversprechende Richtungen, darunter höhere Detailtreue, physikbewusste und interaktive Generierung sowie vereinheitlichte Wahrnehmungs-Generierungs-Modelle. Diese Übersicht ordnet die jüngsten Fortschritte in der 3D-Szenengenerierung und hebt vielversprechende Richtungen an der Schnittstelle von generativer KI, 3D-Vision und verkörperter Intelligenz hervor. Um die laufenden Entwicklungen zu verfolgen, pflegen wir eine aktuelle Projektseite: https://github.com/hzxie/Awesome-3D-Scene-Generation.
English
3D scene generation seeks to synthesize spatially structured, semantically
meaningful, and photorealistic environments for applications such as immersive
media, robotics, autonomous driving, and embodied AI. Early methods based on
procedural rules offered scalability but limited diversity. Recent advances in
deep generative models (e.g., GANs, diffusion models) and 3D representations
(e.g., NeRF, 3D Gaussians) have enabled the learning of real-world scene
distributions, improving fidelity, diversity, and view consistency. Recent
advances like diffusion models bridge 3D scene synthesis and photorealism by
reframing generation as image or video synthesis problems. This survey provides
a systematic overview of state-of-the-art approaches, organizing them into four
paradigms: procedural generation, neural 3D-based generation, image-based
generation, and video-based generation. We analyze their technical foundations,
trade-offs, and representative results, and review commonly used datasets,
evaluation protocols, and downstream applications. We conclude by discussing
key challenges in generation capacity, 3D representation, data and annotations,
and evaluation, and outline promising directions including higher fidelity,
physics-aware and interactive generation, and unified perception-generation
models. This review organizes recent advances in 3D scene generation and
highlights promising directions at the intersection of generative AI, 3D
vision, and embodied intelligence. To track ongoing developments, we maintain
an up-to-date project page:
https://github.com/hzxie/Awesome-3D-Scene-Generation.Summary
AI-Generated Summary