Генерация 3D-сцен: Обзор
3D Scene Generation: A Survey
May 8, 2025
Авторы: Beichen Wen, Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
cs.AI
Аннотация
Генерация 3D-сцен направлена на синтез пространственно структурированных, семантически значимых и фотореалистичных сред для таких приложений, как иммерсивные медиа, робототехника, автономное вождение и воплощённый искусственный интеллект. Ранние методы, основанные на процедурных правилах, обеспечивали масштабируемость, но ограничивали разнообразие. Последние достижения в области глубоких генеративных моделей (например, GAN, диффузионные модели) и 3D-представлений (например, NeRF, 3D-гауссовы распределения) позволили изучать распределения реальных сцен, улучшая точность, разнообразие и согласованность видов. Современные подходы, такие как диффузионные модели, объединяют синтез 3D-сцен и фотореализм, переосмысливая генерацию как задачи синтеза изображений или видео. Данный обзор представляет систематический анализ современных подходов, классифицируя их в четыре парадигмы: процедурная генерация, нейронная генерация на основе 3D, генерация на основе изображений и генерация на основе видео. Мы анализируем их технические основы, компромиссы и репрезентативные результаты, а также рассматриваем часто используемые наборы данных, протоколы оценки и приложения. В заключение обсуждаются ключевые проблемы в области генерации, 3D-представлений, данных и аннотаций, а также оценки, и намечаются перспективные направления, включая повышение точности, физически осознанную и интерактивную генерацию, а также унифицированные модели восприятия и генерации. Этот обзор систематизирует последние достижения в генерации 3D-сцен и выделяет перспективные направления на стыке генеративного ИИ, 3D-зрения и воплощённого интеллекта. Для отслеживания текущих разработок мы поддерживаем актуальную страницу проекта: https://github.com/hzxie/Awesome-3D-Scene-Generation.
English
3D scene generation seeks to synthesize spatially structured, semantically
meaningful, and photorealistic environments for applications such as immersive
media, robotics, autonomous driving, and embodied AI. Early methods based on
procedural rules offered scalability but limited diversity. Recent advances in
deep generative models (e.g., GANs, diffusion models) and 3D representations
(e.g., NeRF, 3D Gaussians) have enabled the learning of real-world scene
distributions, improving fidelity, diversity, and view consistency. Recent
advances like diffusion models bridge 3D scene synthesis and photorealism by
reframing generation as image or video synthesis problems. This survey provides
a systematic overview of state-of-the-art approaches, organizing them into four
paradigms: procedural generation, neural 3D-based generation, image-based
generation, and video-based generation. We analyze their technical foundations,
trade-offs, and representative results, and review commonly used datasets,
evaluation protocols, and downstream applications. We conclude by discussing
key challenges in generation capacity, 3D representation, data and annotations,
and evaluation, and outline promising directions including higher fidelity,
physics-aware and interactive generation, and unified perception-generation
models. This review organizes recent advances in 3D scene generation and
highlights promising directions at the intersection of generative AI, 3D
vision, and embodied intelligence. To track ongoing developments, we maintain
an up-to-date project page:
https://github.com/hzxie/Awesome-3D-Scene-Generation.Summary
AI-Generated Summary