ChatPaper.aiChatPaper

HoloDreamer: Generazione Olistica di Mondi Panoramici 3D da Descrizioni Testuali

HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions

July 21, 2024
Autori: Haiyang Zhou, Xinhua Cheng, Wangbo Yu, Yonghong Tian, Li Yuan
cs.AI

Abstract

La generazione di scene 3D è molto richiesta in vari ambiti, tra cui realtà virtuale, gaming e industria cinematografica. Grazie alle potenti capacità generative dei modelli di diffusione testo-immagine, che forniscono prior affidabili, la creazione di scene 3D utilizzando solo prompt testuali è diventata fattibile, contribuendo così a un significativo avanzamento nella ricerca sulla generazione di scene 3D guidata da testo. Per ottenere una supervisione multi-vista da modelli di diffusione 2D, i metodi prevalenti impiegano tipicamente il modello di diffusione per generare un'immagine locale iniziale, seguita da un'iterativa espansione dell'immagine locale utilizzando modelli di diffusione per generare gradualmente le scene. Tuttavia, questi approcci basati sull'espansione tendono a produrre risultati di generazione di scene globalmente inconsistenti e con un basso grado di completezza, limitandone le applicazioni più ampie. Per affrontare questi problemi, introduciamo HoloDreamer, un framework che genera prima un panorama ad alta definizione come inizializzazione olistica dell'intera scena 3D, per poi sfruttare il 3D Gaussian Splatting (3D-GS) per ricostruire rapidamente la scena 3D, facilitando così la creazione di scene 3D coerenti dal punto di vista visivo e completamente chiuse. Nello specifico, proponiamo la Generazione di Panorami Equirettangolari Stilizzati, una pipeline che combina più modelli di diffusione per consentire la generazione di panorami equirettangolari dettagliati e stilizzati a partire da prompt testuali complessi. Successivamente, viene introdotta la Ricostruzione di Panorami a Due Fasi Potenziata, che esegue un'ottimizzazione a due fasi del 3D-GS per riempire le regioni mancanti e migliorare l'integrità della scena. Esperimenti completi hanno dimostrato che il nostro metodo supera i lavori precedenti in termini di coerenza e armonia visiva complessiva, nonché di qualità di ricostruzione e robustezza del rendering nella generazione di scene completamente chiuse.
English
3D scene generation is in high demand across various domains, including virtual reality, gaming, and the film industry. Owing to the powerful generative capabilities of text-to-image diffusion models that provide reliable priors, the creation of 3D scenes using only text prompts has become viable, thereby significantly advancing researches in text-driven 3D scene generation. In order to obtain multiple-view supervision from 2D diffusion models, prevailing methods typically employ the diffusion model to generate an initial local image, followed by iteratively outpainting the local image using diffusion models to gradually generate scenes. Nevertheless, these outpainting-based approaches prone to produce global inconsistent scene generation results without high degree of completeness, restricting their broader applications. To tackle these problems, we introduce HoloDreamer, a framework that first generates high-definition panorama as a holistic initialization of the full 3D scene, then leverage 3D Gaussian Splatting (3D-GS) to quickly reconstruct the 3D scene, thereby facilitating the creation of view-consistent and fully enclosed 3D scenes. Specifically, we propose Stylized Equirectangular Panorama Generation, a pipeline that combines multiple diffusion models to enable stylized and detailed equirectangular panorama generation from complex text prompts. Subsequently, Enhanced Two-Stage Panorama Reconstruction is introduced, conducting a two-stage optimization of 3D-GS to inpaint the missing region and enhance the integrity of the scene. Comprehensive experiments demonstrated that our method outperforms prior works in terms of overall visual consistency and harmony as well as reconstruction quality and rendering robustness when generating fully enclosed scenes.
PDF132November 28, 2024