DreamScene: Generazione End-to-end di Scene 3D da Testo basata su Gaussiane 3D
DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation
July 18, 2025
Autori: Haoran Li, Yuli Tian, Kun Lan, Yong Liao, Lin Wang, Pan Hui, Peng Yuan Zhou
cs.AI
Abstract
La generazione di scene 3D a partire da linguaggio naturale rappresenta una promessa significativa per applicazioni nel gaming, nel cinema e nel design. Tuttavia, i metodi esistenti incontrano difficoltà in termini di automazione, coerenza 3D e controllo fine. Presentiamo DreamScene, un framework end-to-end per la generazione di scene 3D di alta qualità e modificabili a partire da testo o dialogo. DreamScene inizia con un modulo di pianificazione della scena, in cui un agente GPT-4 deduce la semantica degli oggetti e i vincoli spaziali per costruire un grafo ibrido. Un algoritmo di posizionamento basato su grafo produce quindi un layout strutturato e privo di collisioni. Basandosi su questo layout, il Campionamento del Modello di Formazione (FPS) genera la geometria degli oggetti utilizzando un campionamento multi-timestep e un'ottimizzazione ricostruttiva, consentendo una sintesi rapida e realistica. Per garantire una coerenza globale, DreamScene impiega una strategia di campionamento progressivo della fotocamera, adattata sia per ambienti interni che esterni. Infine, il sistema supporta modifiche fini della scena, inclusi lo spostamento degli oggetti, i cambiamenti di aspetto e il movimento dinamico 4D. Gli esperimenti dimostrano che DreamScene supera i metodi precedenti in termini di qualità, coerenza e flessibilità, offrendo una soluzione pratica per la creazione di contenuti 3D in domini aperti. Codice e demo sono disponibili all'indirizzo https://jahnsonblack.github.io/DreamScene-Full/.
English
Generating 3D scenes from natural language holds great promise for
applications in gaming, film, and design. However, existing methods struggle
with automation, 3D consistency, and fine-grained control. We present
DreamScene, an end-to-end framework for high-quality and editable 3D scene
generation from text or dialogue. DreamScene begins with a scene planning
module, where a GPT-4 agent infers object semantics and spatial constraints to
construct a hybrid graph. A graph-based placement algorithm then produces a
structured, collision-free layout. Based on this layout, Formation Pattern
Sampling (FPS) generates object geometry using multi-timestep sampling and
reconstructive optimization, enabling fast and realistic synthesis. To ensure
global consistent, DreamScene employs a progressive camera sampling strategy
tailored to both indoor and outdoor settings. Finally, the system supports
fine-grained scene editing, including object movement, appearance changes, and
4D dynamic motion. Experiments demonstrate that DreamScene surpasses prior
methods in quality, consistency, and flexibility, offering a practical solution
for open-domain 3D content creation. Code and demos are available at
https://jahnsonblack.github.io/DreamScene-Full/.