3D 장면 생성: 연구 동향 분석
3D Scene Generation: A Survey
May 8, 2025
저자: Beichen Wen, Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
cs.AI
초록
3D 장면 생성은 몰입형 미디어, 로보틱스, 자율 주행, 그리고 구현된 AI와 같은 응용 분야를 위해 공간적으로 구조화되고 의미론적으로 의미 있으며 사실적인 환경을 합성하는 것을 목표로 합니다. 초기 방법들은 절차적 규칙에 기반하여 확장성을 제공했지만 다양성은 제한적이었습니다. 최근의 딥 생성 모델(예: GANs, 확산 모델)과 3D 표현(예: NeRF, 3D 가우시안)의 발전으로 실세계 장면 분포를 학습할 수 있게 되었으며, 이는 충실도, 다양성, 그리고 시점 일관성을 개선했습니다. 확산 모델과 같은 최신 기술은 생성 문제를 이미지 또는 비디오 합성 문제로 재구성함으로써 3D 장면 합성과 사실성을 연결합니다. 이 조사 논문은 최신 접근법을 체계적으로 개관하며, 이를 절차적 생성, 신경망 기반 3D 생성, 이미지 기반 생성, 그리고 비디오 기반 생성의 네 가지 패러다임으로 분류합니다. 우리는 이들의 기술적 기반, 트레이드오프, 그리고 대표적인 결과를 분석하고, 일반적으로 사용되는 데이터셋, 평가 프로토콜, 그리고 하위 응용 분야를 검토합니다. 마지막으로, 생성 능력, 3D 표현, 데이터와 주석, 그리고 평가에서의 주요 과제를 논의하고, 더 높은 충실도, 물리학을 고려한 상호작용 생성, 그리고 통합된 인지-생성 모델을 포함한 유망한 방향을 제시합니다. 이 리뷰는 3D 장면 생성의 최신 발전을 정리하고, 생성 AI, 3D 비전, 그리고 구현된 지능의 교차점에서의 유망한 방향을 강조합니다. 지속적인 발전을 추적하기 위해, 우리는 최신 프로젝트 페이지를 유지합니다: https://github.com/hzxie/Awesome-3D-Scene-Generation.
English
3D scene generation seeks to synthesize spatially structured, semantically
meaningful, and photorealistic environments for applications such as immersive
media, robotics, autonomous driving, and embodied AI. Early methods based on
procedural rules offered scalability but limited diversity. Recent advances in
deep generative models (e.g., GANs, diffusion models) and 3D representations
(e.g., NeRF, 3D Gaussians) have enabled the learning of real-world scene
distributions, improving fidelity, diversity, and view consistency. Recent
advances like diffusion models bridge 3D scene synthesis and photorealism by
reframing generation as image or video synthesis problems. This survey provides
a systematic overview of state-of-the-art approaches, organizing them into four
paradigms: procedural generation, neural 3D-based generation, image-based
generation, and video-based generation. We analyze their technical foundations,
trade-offs, and representative results, and review commonly used datasets,
evaluation protocols, and downstream applications. We conclude by discussing
key challenges in generation capacity, 3D representation, data and annotations,
and evaluation, and outline promising directions including higher fidelity,
physics-aware and interactive generation, and unified perception-generation
models. This review organizes recent advances in 3D scene generation and
highlights promising directions at the intersection of generative AI, 3D
vision, and embodied intelligence. To track ongoing developments, we maintain
an up-to-date project page:
https://github.com/hzxie/Awesome-3D-Scene-Generation.Summary
AI-Generated Summary