Generación de Escenas 3D: Una Revisión
3D Scene Generation: A Survey
May 8, 2025
Autores: Beichen Wen, Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
cs.AI
Resumen
La generación de escenas 3D busca sintetizar entornos espacialmente estructurados, semánticamente significativos y fotorrealistas para aplicaciones como medios inmersivos, robótica, conducción autónoma e IA encarnada. Los primeros métodos basados en reglas procedimentales ofrecían escalabilidad pero una diversidad limitada. Los avances recientes en modelos generativos profundos (por ejemplo, GANs, modelos de difusión) y representaciones 3D (por ejemplo, NeRF, Gaussianas 3D) han permitido el aprendizaje de distribuciones de escenas del mundo real, mejorando la fidelidad, diversidad y consistencia de las vistas. Avances recientes como los modelos de difusión conectan la síntesis de escenas 3D y el fotorrealismo al reformular la generación como problemas de síntesis de imágenes o videos. Esta encuesta proporciona una visión sistemática de los enfoques más avanzados, organizándolos en cuatro paradigmas: generación procedimental, generación basada en redes neuronales 3D, generación basada en imágenes y generación basada en videos. Analizamos sus fundamentos técnicos, compensaciones y resultados representativos, y revisamos los conjuntos de datos, protocolos de evaluación y aplicaciones posteriores comúnmente utilizados. Concluimos discutiendo los desafíos clave en la capacidad de generación, representación 3D, datos y anotaciones, y evaluación, y esbozamos direcciones prometedoras que incluyen mayor fidelidad, generación física-consciente e interactiva, y modelos unificados de percepción-generación. Esta revisión organiza los avances recientes en la generación de escenas 3D y destaca direcciones prometedoras en la intersección de la IA generativa, la visión 3D y la inteligencia encarnada. Para seguir los desarrollos en curso, mantenemos una página de proyecto actualizada: https://github.com/hzxie/Awesome-3D-Scene-Generation.
English
3D scene generation seeks to synthesize spatially structured, semantically
meaningful, and photorealistic environments for applications such as immersive
media, robotics, autonomous driving, and embodied AI. Early methods based on
procedural rules offered scalability but limited diversity. Recent advances in
deep generative models (e.g., GANs, diffusion models) and 3D representations
(e.g., NeRF, 3D Gaussians) have enabled the learning of real-world scene
distributions, improving fidelity, diversity, and view consistency. Recent
advances like diffusion models bridge 3D scene synthesis and photorealism by
reframing generation as image or video synthesis problems. This survey provides
a systematic overview of state-of-the-art approaches, organizing them into four
paradigms: procedural generation, neural 3D-based generation, image-based
generation, and video-based generation. We analyze their technical foundations,
trade-offs, and representative results, and review commonly used datasets,
evaluation protocols, and downstream applications. We conclude by discussing
key challenges in generation capacity, 3D representation, data and annotations,
and evaluation, and outline promising directions including higher fidelity,
physics-aware and interactive generation, and unified perception-generation
models. This review organizes recent advances in 3D scene generation and
highlights promising directions at the intersection of generative AI, 3D
vision, and embodied intelligence. To track ongoing developments, we maintain
an up-to-date project page:
https://github.com/hzxie/Awesome-3D-Scene-Generation.Summary
AI-Generated Summary