DreamScene: 3D Gaussiaans-gebaseerde End-to-end Tekst-naar-3D Scène Generatie
DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation
July 18, 2025
Auteurs: Haoran Li, Yuli Tian, Kun Lan, Yong Liao, Lin Wang, Pan Hui, Peng Yuan Zhou
cs.AI
Samenvatting
Het genereren van 3D-scènes uit natuurlijke taal biedt veelbelovende mogelijkheden voor toepassingen in gaming, film en design. Bestaande methoden hebben echter moeite met automatisering, 3D-consistentie en gedetailleerde controle. Wij presenteren DreamScene, een end-to-end framework voor het genereren van hoogwaardige en bewerkbare 3D-scènes vanuit tekst of dialoog. DreamScene begint met een scenarioplanningmodule, waarbij een GPT-4-agent objectsemantiek en ruimtelijke beperkingen afleidt om een hybride grafiek te construeren. Een op grafieken gebaseerd plaatsingsalgoritme produceert vervolgens een gestructureerde, botsingsvrije lay-out. Gebaseerd op deze lay-out genereert Formation Pattern Sampling (FPS) objectgeometrie met behulp van multi-timestep sampling en reconstructieve optimalisatie, wat een snelle en realistische synthese mogelijk maakt. Om globale consistentie te waarborgen, gebruikt DreamScene een progressieve camerabemonsteringsstrategie die is afgestemd op zowel binnen- als buitenscènes. Tot slot ondersteunt het systeem gedetailleerde scènebewerkingen, waaronder objectverplaatsing, uiterlijkveranderingen en 4D-dynamische beweging. Experimenten tonen aan dat DreamScene eerdere methoden overtreft in kwaliteit, consistentie en flexibiliteit, en biedt zo een praktische oplossing voor open-domein 3D-contentcreatie. Code en demo's zijn beschikbaar op https://jahnsonblack.github.io/DreamScene-Full/.
English
Generating 3D scenes from natural language holds great promise for
applications in gaming, film, and design. However, existing methods struggle
with automation, 3D consistency, and fine-grained control. We present
DreamScene, an end-to-end framework for high-quality and editable 3D scene
generation from text or dialogue. DreamScene begins with a scene planning
module, where a GPT-4 agent infers object semantics and spatial constraints to
construct a hybrid graph. A graph-based placement algorithm then produces a
structured, collision-free layout. Based on this layout, Formation Pattern
Sampling (FPS) generates object geometry using multi-timestep sampling and
reconstructive optimization, enabling fast and realistic synthesis. To ensure
global consistent, DreamScene employs a progressive camera sampling strategy
tailored to both indoor and outdoor settings. Finally, the system supports
fine-grained scene editing, including object movement, appearance changes, and
4D dynamic motion. Experiments demonstrate that DreamScene surpasses prior
methods in quality, consistency, and flexibility, offering a practical solution
for open-domain 3D content creation. Code and demos are available at
https://jahnsonblack.github.io/DreamScene-Full/.