DreamScene : Génération de scènes 3D à partir de texte basée sur les gaussiennes 3D de bout en bout
DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation
July 18, 2025
papers.authors: Haoran Li, Yuli Tian, Kun Lan, Yong Liao, Lin Wang, Pan Hui, Peng Yuan Zhou
cs.AI
papers.abstract
La génération de scènes 3D à partir de langage naturel présente un grand potentiel pour des applications dans les domaines du jeu vidéo, du cinéma et du design. Cependant, les méthodes existantes peinent à automatiser ce processus, à assurer la cohérence 3D et à offrir un contrôle fin. Nous présentons DreamScene, un framework de bout en bout pour la génération de scènes 3D de haute qualité et modifiables à partir de texte ou de dialogue. DreamScene commence par un module de planification de scène, où un agent GPT-4 déduit la sémantique des objets et les contraintes spatiales pour construire un graphe hybride. Un algorithme de placement basé sur les graphes produit ensuite une disposition structurée et sans collision. Sur la base de cette disposition, l'échantillonnage de motifs de formation (Formation Pattern Sampling, FPS) génère la géométrie des objets en utilisant un échantillonnage multi-étapes et une optimisation reconstructive, permettant une synthèse rapide et réaliste. Pour garantir une cohérence globale, DreamScene emploie une stratégie d'échantillonnage progressif de la caméra adaptée aux environnements intérieurs et extérieurs. Enfin, le système prend en charge l'édition fine de la scène, incluant le déplacement d'objets, les changements d'apparence et les mouvements dynamiques 4D. Les expériences montrent que DreamScene surpasse les méthodes précédentes en termes de qualité, de cohérence et de flexibilité, offrant une solution pratique pour la création de contenu 3D en domaine ouvert. Le code et les démonstrations sont disponibles à l'adresse https://jahnsonblack.github.io/DreamScene-Full/.
English
Generating 3D scenes from natural language holds great promise for
applications in gaming, film, and design. However, existing methods struggle
with automation, 3D consistency, and fine-grained control. We present
DreamScene, an end-to-end framework for high-quality and editable 3D scene
generation from text or dialogue. DreamScene begins with a scene planning
module, where a GPT-4 agent infers object semantics and spatial constraints to
construct a hybrid graph. A graph-based placement algorithm then produces a
structured, collision-free layout. Based on this layout, Formation Pattern
Sampling (FPS) generates object geometry using multi-timestep sampling and
reconstructive optimization, enabling fast and realistic synthesis. To ensure
global consistent, DreamScene employs a progressive camera sampling strategy
tailored to both indoor and outdoor settings. Finally, the system supports
fine-grained scene editing, including object movement, appearance changes, and
4D dynamic motion. Experiments demonstrate that DreamScene surpasses prior
methods in quality, consistency, and flexibility, offering a practical solution
for open-domain 3D content creation. Code and demos are available at
https://jahnsonblack.github.io/DreamScene-Full/.