ChatPaper.aiChatPaper

Generazione di Scene 3D: Una Rassegna

3D Scene Generation: A Survey

May 8, 2025
Autori: Beichen Wen, Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu
cs.AI

Abstract

La generazione di scene 3D mira a sintetizzare ambienti strutturati spazialmente, semanticamente significativi e fotorealistici per applicazioni come i media immersivi, la robotica, la guida autonoma e l'intelligenza artificiale incarnata. I metodi iniziali basati su regole procedurali offrivano scalabilità ma una diversità limitata. I recenti progressi nei modelli generativi profondi (ad esempio, GAN, modelli di diffusione) e nelle rappresentazioni 3D (ad esempio, NeRF, Gaussiane 3D) hanno permesso l'apprendimento delle distribuzioni di scene del mondo reale, migliorando fedeltà, diversità e coerenza visiva. I recenti progressi come i modelli di diffusione collegano la sintesi di scene 3D e il fotorealismo riformulando la generazione come problemi di sintesi di immagini o video. Questa rassegna fornisce una panoramica sistematica degli approcci all'avanguardia, organizzandoli in quattro paradigmi: generazione procedurale, generazione basata su reti neurali 3D, generazione basata su immagini e generazione basata su video. Analizziamo le loro basi tecniche, i compromessi e i risultati rappresentativi, e rivediamo i dataset comunemente utilizzati, i protocolli di valutazione e le applicazioni a valle. Concludiamo discutendo le principali sfide nella capacità di generazione, nella rappresentazione 3D, nei dati e nelle annotazioni, e nella valutazione, e delineiamo direzioni promettenti tra cui una maggiore fedeltà, generazione consapevole della fisica e interattiva, e modelli unificati di percezione-generazione. Questa rassegna organizza i recenti progressi nella generazione di scene 3D e mette in luce direzioni promettenti all'intersezione tra intelligenza artificiale generativa, visione 3D e intelligenza incarnata. Per monitorare gli sviluppi in corso, manteniamo una pagina di progetto aggiornata: https://github.com/hzxie/Awesome-3D-Scene-Generation.
English
3D scene generation seeks to synthesize spatially structured, semantically meaningful, and photorealistic environments for applications such as immersive media, robotics, autonomous driving, and embodied AI. Early methods based on procedural rules offered scalability but limited diversity. Recent advances in deep generative models (e.g., GANs, diffusion models) and 3D representations (e.g., NeRF, 3D Gaussians) have enabled the learning of real-world scene distributions, improving fidelity, diversity, and view consistency. Recent advances like diffusion models bridge 3D scene synthesis and photorealism by reframing generation as image or video synthesis problems. This survey provides a systematic overview of state-of-the-art approaches, organizing them into four paradigms: procedural generation, neural 3D-based generation, image-based generation, and video-based generation. We analyze their technical foundations, trade-offs, and representative results, and review commonly used datasets, evaluation protocols, and downstream applications. We conclude by discussing key challenges in generation capacity, 3D representation, data and annotations, and evaluation, and outline promising directions including higher fidelity, physics-aware and interactive generation, and unified perception-generation models. This review organizes recent advances in 3D scene generation and highlights promising directions at the intersection of generative AI, 3D vision, and embodied intelligence. To track ongoing developments, we maintain an up-to-date project page: https://github.com/hzxie/Awesome-3D-Scene-Generation.
PDF212May 9, 2025