Génération de Scènes 3D : Un Panorama
3D Scene Generation: A Survey
May 8, 2025
Auteurs: Beichen Wen, Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
cs.AI
Résumé
La génération de scènes 3D vise à synthétiser des environnements spatialement structurés, sémantiquement significatifs et photoréalistes pour des applications telles que les médias immersifs, la robotique, la conduite autonome et l'IA incarnée. Les premières méthodes basées sur des règles procédurales offraient une évolutivité mais une diversité limitée. Les récents progrès dans les modèles génératifs profonds (par exemple, les GAN, les modèles de diffusion) et les représentations 3D (par exemple, NeRF, les gaussiennes 3D) ont permis l'apprentissage des distributions de scènes du monde réel, améliorant ainsi la fidélité, la diversité et la cohérence des vues. Les avancées récentes comme les modèles de diffusion relient la synthèse de scènes 3D et le photoréalisme en reformulant la génération comme des problèmes de synthèse d'images ou de vidéos. Cette étude fournit un aperçu systématique des approches de pointe, les organisant en quatre paradigmes : la génération procédurale, la génération basée sur des réseaux neuronaux 3D, la génération basée sur des images et la génération basée sur des vidéos. Nous analysons leurs fondements techniques, les compromis et les résultats représentatifs, et passons en revue les ensembles de données couramment utilisés, les protocoles d'évaluation et les applications en aval. Nous concluons en discutant des défis clés en matière de capacité de génération, de représentation 3D, de données et d'annotations, et d'évaluation, et en esquissant des directions prometteuses incluant une fidélité accrue, une génération interactive et consciente de la physique, et des modèles unifiés de perception-génération. Cette revue organise les avancées récentes dans la génération de scènes 3D et met en lumière des directions prometteuses à l'intersection de l'IA générative, de la vision 3D et de l'intelligence incarnée. Pour suivre les développements en cours, nous maintenons une page de projet à jour : https://github.com/hzxie/Awesome-3D-Scene-Generation.
English
3D scene generation seeks to synthesize spatially structured, semantically
meaningful, and photorealistic environments for applications such as immersive
media, robotics, autonomous driving, and embodied AI. Early methods based on
procedural rules offered scalability but limited diversity. Recent advances in
deep generative models (e.g., GANs, diffusion models) and 3D representations
(e.g., NeRF, 3D Gaussians) have enabled the learning of real-world scene
distributions, improving fidelity, diversity, and view consistency. Recent
advances like diffusion models bridge 3D scene synthesis and photorealism by
reframing generation as image or video synthesis problems. This survey provides
a systematic overview of state-of-the-art approaches, organizing them into four
paradigms: procedural generation, neural 3D-based generation, image-based
generation, and video-based generation. We analyze their technical foundations,
trade-offs, and representative results, and review commonly used datasets,
evaluation protocols, and downstream applications. We conclude by discussing
key challenges in generation capacity, 3D representation, data and annotations,
and evaluation, and outline promising directions including higher fidelity,
physics-aware and interactive generation, and unified perception-generation
models. This review organizes recent advances in 3D scene generation and
highlights promising directions at the intersection of generative AI, 3D
vision, and embodied intelligence. To track ongoing developments, we maintain
an up-to-date project page:
https://github.com/hzxie/Awesome-3D-Scene-Generation.Summary
AI-Generated Summary