ChatPaper.aiChatPaper

DreamScene360: Onbeperkte Tekst-naar-3D Scène Generatie met Panoramische Gaussische Splatting

DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting

April 10, 2024
Auteurs: Shijie Zhou, Zhiwen Fan, Dejia Xu, Haoran Chang, Pradyumna Chari, Tejas Bharadwaj, Suya You, Zhangyang Wang, Achuta Kadambi
cs.AI

Samenvatting

De toenemende vraag naar virtual reality-toepassingen heeft het belang benadrukt van het creëren van meeslepende 3D-assets. Wij presenteren een tekst-naar-3D 360^{circ} scènegeneratiepijplijn die het mogelijk maakt om uitgebreide 360^{circ} scènes voor omgevingen in de vrije natuur binnen enkele minuten te genereren. Onze aanpak maakt gebruik van de generatieve kracht van een 2D-diffusiemodel en prompt-zelfverfijning om een hoogwaardige en globaal samenhangende panoramische afbeelding te creëren. Deze afbeelding fungeert als een voorlopige "platte" (2D) scèneweergave. Vervolgens wordt deze omgezet in 3D-Gaussiaanse verdelingen, waarbij splatting-technieken worden ingezet om real-time exploratie mogelijk te maken. Om consistente 3D-geometrie te produceren, construeert onze pijplijn een ruimtelijk samenhangende structuur door de 2D-monoculaire diepte af te stemmen op een globaal geoptimaliseerd puntenwolk. Deze puntenwolk dient als de initiële toestand voor de centroïden van de 3D-Gaussiaanse verdelingen. Om problemen met onzichtbare gebieden die inherent zijn aan enkelvoudige invoerweergaven aan te pakken, leggen we semantische en geometrische beperkingen op aan zowel gesynthetiseerde als ingevoerde camerabeelden als regularisaties. Deze begeleiden de optimalisatie van de Gaussiaanse verdelingen, wat helpt bij de reconstructie van onzichtbare gebieden. Samengevat biedt onze methode een globaal consistente 3D-scène binnen een 360^{circ} perspectief, wat een verbeterde meeslepende ervaring biedt in vergelijking met bestaande technieken. Projectwebsite: http://dreamscene360.github.io/
English
The increasing demand for virtual reality applications has highlighted the significance of crafting immersive 3D assets. We present a text-to-3D 360^{circ} scene generation pipeline that facilitates the creation of comprehensive 360^{circ} scenes for in-the-wild environments in a matter of minutes. Our approach utilizes the generative power of a 2D diffusion model and prompt self-refinement to create a high-quality and globally coherent panoramic image. This image acts as a preliminary "flat" (2D) scene representation. Subsequently, it is lifted into 3D Gaussians, employing splatting techniques to enable real-time exploration. To produce consistent 3D geometry, our pipeline constructs a spatially coherent structure by aligning the 2D monocular depth into a globally optimized point cloud. This point cloud serves as the initial state for the centroids of 3D Gaussians. In order to address invisible issues inherent in single-view inputs, we impose semantic and geometric constraints on both synthesized and input camera views as regularizations. These guide the optimization of Gaussians, aiding in the reconstruction of unseen regions. In summary, our method offers a globally consistent 3D scene within a 360^{circ} perspective, providing an enhanced immersive experience over existing techniques. Project website at: http://dreamscene360.github.io/
PDF213December 15, 2024