DreamScene: Generazione End-to-end di Scene 3D da Testo basata su Gaussiane 3D

Abstract

La generazione di scene 3D a partire da linguaggio naturale rappresenta una promessa significativa per applicazioni nel gaming, nel cinema e nel design. Tuttavia, i metodi esistenti incontrano difficoltà in termini di automazione, coerenza 3D e controllo fine. Presentiamo DreamScene, un framework end-to-end per la generazione di scene 3D di alta qualità e modificabili a partire da testo o dialogo. DreamScene inizia con un modulo di pianificazione della scena, in cui un agente GPT-4 deduce la semantica degli oggetti e i vincoli spaziali per costruire un grafo ibrido. Un algoritmo di posizionamento basato su grafo produce quindi un layout strutturato e privo di collisioni. Basandosi su questo layout, il Campionamento del Modello di Formazione (FPS) genera la geometria degli oggetti utilizzando un campionamento multi-timestep e un'ottimizzazione ricostruttiva, consentendo una sintesi rapida e realistica. Per garantire una coerenza globale, DreamScene impiega una strategia di campionamento progressivo della fotocamera, adattata sia per ambienti interni che esterni. Infine, il sistema supporta modifiche fini della scena, inclusi lo spostamento degli oggetti, i cambiamenti di aspetto e il movimento dinamico 4D. Gli esperimenti dimostrano che DreamScene supera i metodi precedenti in termini di qualità, coerenza e flessibilità, offrendo una soluzione pratica per la creazione di contenuti 3D in domini aperti. Codice e demo sono disponibili all'indirizzo https://jahnsonblack.github.io/DreamScene-Full/.

English

Generating 3D scenes from natural language holds great promise for applications in gaming, film, and design. However, existing methods struggle with automation, 3D consistency, and fine-grained control. We present DreamScene, an end-to-end framework for high-quality and editable 3D scene generation from text or dialogue. DreamScene begins with a scene planning module, where a GPT-4 agent infers object semantics and spatial constraints to construct a hybrid graph. A graph-based placement algorithm then produces a structured, collision-free layout. Based on this layout, Formation Pattern Sampling (FPS) generates object geometry using multi-timestep sampling and reconstructive optimization, enabling fast and realistic synthesis. To ensure global consistent, DreamScene employs a progressive camera sampling strategy tailored to both indoor and outdoor settings. Finally, the system supports fine-grained scene editing, including object movement, appearance changes, and 4D dynamic motion. Experiments demonstrate that DreamScene surpasses prior methods in quality, consistency, and flexibility, offering a practical solution for open-domain 3D content creation. Code and demos are available at https://jahnsonblack.github.io/DreamScene-Full/.

DreamScene: Generazione End-to-end di Scene 3D da Testo basata su Gaussiane 3D

DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation

Abstract

Support