Geração de Cenas 3D: Uma Revisão
3D Scene Generation: A Survey
May 8, 2025
Autores: Beichen Wen, Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
cs.AI
Resumo
A geração de cenas 3D busca sintetizar ambientes espacialmente estruturados, semanticamente significativos e foto-realistas para aplicações como mídia imersiva, robótica, direção autônoma e IA incorporada. Métodos iniciais baseados em regras procedurais ofereciam escalabilidade, mas com diversidade limitada. Avanços recentes em modelos generativos profundos (por exemplo, GANs, modelos de difusão) e representações 3D (por exemplo, NeRF, Gaussianas 3D) permitiram o aprendizado de distribuições de cenas do mundo real, melhorando fidelidade, diversidade e consistência de visão. Avanços recentes, como modelos de difusão, conectam a síntese de cenas 3D e o foto-realismo ao reformular a geração como problemas de síntese de imagens ou vídeos. Esta pesquisa fornece uma visão sistemática das abordagens de ponta, organizando-as em quatro paradigmas: geração procedural, geração baseada em 3D neural, geração baseada em imagem e geração baseada em vídeo. Analisamos suas bases técnicas, compensações e resultados representativos, e revisamos conjuntos de dados comumente usados, protocolos de avaliação e aplicações subsequentes. Concluímos discutindo os principais desafios em capacidade de geração, representação 3D, dados e anotações, e avaliação, e delineamos direções promissoras, incluindo maior fidelidade, geração física-consciente e interativa, e modelos unificados de percepção-geração. Esta revisão organiza os avanços recentes na geração de cenas 3D e destaca direções promissoras na interseção de IA generativa, visão 3D e inteligência incorporada. Para acompanhar os desenvolvimentos em andamento, mantemos uma página de projeto atualizada: https://github.com/hzxie/Awesome-3D-Scene-Generation.
English
3D scene generation seeks to synthesize spatially structured, semantically
meaningful, and photorealistic environments for applications such as immersive
media, robotics, autonomous driving, and embodied AI. Early methods based on
procedural rules offered scalability but limited diversity. Recent advances in
deep generative models (e.g., GANs, diffusion models) and 3D representations
(e.g., NeRF, 3D Gaussians) have enabled the learning of real-world scene
distributions, improving fidelity, diversity, and view consistency. Recent
advances like diffusion models bridge 3D scene synthesis and photorealism by
reframing generation as image or video synthesis problems. This survey provides
a systematic overview of state-of-the-art approaches, organizing them into four
paradigms: procedural generation, neural 3D-based generation, image-based
generation, and video-based generation. We analyze their technical foundations,
trade-offs, and representative results, and review commonly used datasets,
evaluation protocols, and downstream applications. We conclude by discussing
key challenges in generation capacity, 3D representation, data and annotations,
and evaluation, and outline promising directions including higher fidelity,
physics-aware and interactive generation, and unified perception-generation
models. This review organizes recent advances in 3D scene generation and
highlights promising directions at the intersection of generative AI, 3D
vision, and embodied intelligence. To track ongoing developments, we maintain
an up-to-date project page:
https://github.com/hzxie/Awesome-3D-Scene-Generation.