ChatPaper.aiChatPaper

DreamScene: 3D-Gauß-basierte End-to-End-Text-zu-3D-Szenen-Generierung

DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation

July 18, 2025
papers.authors: Haoran Li, Yuli Tian, Kun Lan, Yong Liao, Lin Wang, Pan Hui, Peng Yuan Zhou
cs.AI

papers.abstract

Die Erzeugung von 3D-Szenen aus natürlicher Sprache birgt großes Potenzial für Anwendungen in den Bereichen Gaming, Film und Design. Allerdings kämpfen bestehende Methoden mit Automatisierung, 3D-Konsistenz und fein abgestufter Kontrolle. Wir stellen DreamScene vor, ein End-to-End-Framework für die hochwertige und bearbeitbare Erzeugung von 3D-Szenen aus Text oder Dialogen. DreamScene beginnt mit einem Szenenplanungsmodul, in dem ein GPT-4-Agent Objektsemantik und räumliche Einschränkungen ableitet, um einen hybriden Graphen zu konstruieren. Ein graphenbasierter Platzierungsalgorithmus erzeugt daraufhin ein strukturiertes, kollisionsfreies Layout. Basierend auf diesem Layout generiert Formation Pattern Sampling (FPS) die Objektgeometrie durch Multi-Timestep-Sampling und rekonstruktive Optimierung, was eine schnelle und realistische Synthese ermöglicht. Um globale Konsistenz zu gewährleisten, verwendet DreamScene eine progressive Kamera-Sampling-Strategie, die sowohl für Innen- als auch für Außenbereiche geeignet ist. Schließlich unterstützt das System die fein abgestufte Bearbeitung von Szenen, einschließlich Objektbewegung, Änderungen des Erscheinungsbilds und 4D-dynamischer Bewegung. Experimente zeigen, dass DreamScene bisherige Methoden in Bezug auf Qualität, Konsistenz und Flexibilität übertrifft und eine praktische Lösung für die offene Domäne der 3D-Inhaltserstellung bietet. Code und Demos sind verfügbar unter https://jahnsonblack.github.io/DreamScene-Full/.
English
Generating 3D scenes from natural language holds great promise for applications in gaming, film, and design. However, existing methods struggle with automation, 3D consistency, and fine-grained control. We present DreamScene, an end-to-end framework for high-quality and editable 3D scene generation from text or dialogue. DreamScene begins with a scene planning module, where a GPT-4 agent infers object semantics and spatial constraints to construct a hybrid graph. A graph-based placement algorithm then produces a structured, collision-free layout. Based on this layout, Formation Pattern Sampling (FPS) generates object geometry using multi-timestep sampling and reconstructive optimization, enabling fast and realistic synthesis. To ensure global consistent, DreamScene employs a progressive camera sampling strategy tailored to both indoor and outdoor settings. Finally, the system supports fine-grained scene editing, including object movement, appearance changes, and 4D dynamic motion. Experiments demonstrate that DreamScene surpasses prior methods in quality, consistency, and flexibility, offering a practical solution for open-domain 3D content creation. Code and demos are available at https://jahnsonblack.github.io/DreamScene-Full/.
PDF62July 31, 2025