ChatPaper.aiChatPaper

DreamScene: 3D Gaussiaans-gebaseerde End-to-end Tekst-naar-3D Scène Generatie

DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation

July 18, 2025
Auteurs: Haoran Li, Yuli Tian, Kun Lan, Yong Liao, Lin Wang, Pan Hui, Peng Yuan Zhou
cs.AI

Samenvatting

Het genereren van 3D-scènes uit natuurlijke taal biedt veelbelovende mogelijkheden voor toepassingen in gaming, film en design. Bestaande methoden hebben echter moeite met automatisering, 3D-consistentie en gedetailleerde controle. Wij presenteren DreamScene, een end-to-end framework voor het genereren van hoogwaardige en bewerkbare 3D-scènes vanuit tekst of dialoog. DreamScene begint met een scenarioplanningmodule, waarbij een GPT-4-agent objectsemantiek en ruimtelijke beperkingen afleidt om een hybride grafiek te construeren. Een op grafieken gebaseerd plaatsingsalgoritme produceert vervolgens een gestructureerde, botsingsvrije lay-out. Gebaseerd op deze lay-out genereert Formation Pattern Sampling (FPS) objectgeometrie met behulp van multi-timestep sampling en reconstructieve optimalisatie, wat een snelle en realistische synthese mogelijk maakt. Om globale consistentie te waarborgen, gebruikt DreamScene een progressieve camerabemonsteringsstrategie die is afgestemd op zowel binnen- als buitenscènes. Tot slot ondersteunt het systeem gedetailleerde scènebewerkingen, waaronder objectverplaatsing, uiterlijkveranderingen en 4D-dynamische beweging. Experimenten tonen aan dat DreamScene eerdere methoden overtreft in kwaliteit, consistentie en flexibiliteit, en biedt zo een praktische oplossing voor open-domein 3D-contentcreatie. Code en demo's zijn beschikbaar op https://jahnsonblack.github.io/DreamScene-Full/.
English
Generating 3D scenes from natural language holds great promise for applications in gaming, film, and design. However, existing methods struggle with automation, 3D consistency, and fine-grained control. We present DreamScene, an end-to-end framework for high-quality and editable 3D scene generation from text or dialogue. DreamScene begins with a scene planning module, where a GPT-4 agent infers object semantics and spatial constraints to construct a hybrid graph. A graph-based placement algorithm then produces a structured, collision-free layout. Based on this layout, Formation Pattern Sampling (FPS) generates object geometry using multi-timestep sampling and reconstructive optimization, enabling fast and realistic synthesis. To ensure global consistent, DreamScene employs a progressive camera sampling strategy tailored to both indoor and outdoor settings. Finally, the system supports fine-grained scene editing, including object movement, appearance changes, and 4D dynamic motion. Experiments demonstrate that DreamScene surpasses prior methods in quality, consistency, and flexibility, offering a practical solution for open-domain 3D content creation. Code and demos are available at https://jahnsonblack.github.io/DreamScene-Full/.
PDF62July 31, 2025