ChatPaper.aiChatPaper

HoloDreamer: Holistische 3D Panoramische Wereldgeneratie uit Tekstbeschrijvingen

HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions

July 21, 2024
Auteurs: Haiyang Zhou, Xinhua Cheng, Wangbo Yu, Yonghong Tian, Li Yuan
cs.AI

Samenvatting

3D-scenegeneratie is zeer gewild in verschillende domeinen, waaronder virtual reality, gaming en de filmindustrie. Dankzij de krachtige generatieve mogelijkheden van tekst-naar-beeld diffusiemodellen die betrouwbare priors bieden, is het creëren van 3D-scènes met alleen tekstprompts haalbaar geworden, wat het onderzoek naar tekstgestuurde 3D-scènegeneratie aanzienlijk heeft bevorderd. Om meerdere-weergave supervisie te verkrijgen vanuit 2D-diffusiemodellen, gebruiken heersende methoden doorgaans het diffusiemodel om een initieel lokaal beeld te genereren, gevolgd door het iteratief uitbreiden van het lokale beeld met diffusiemodellen om geleidelijk scènes te genereren. Deze op uitbreiding gebaseerde benaderingen zijn echter geneigd om globaal inconsistente scènegeneratieresultaten te produceren zonder een hoge mate van volledigheid, wat hun bredere toepassingen beperkt. Om deze problemen aan te pakken, introduceren we HoloDreamer, een framework dat eerst een hoge-definitie panorama genereert als een holistische initialisatie van de volledige 3D-scène, en vervolgens 3D Gaussian Splatting (3D-GS) gebruikt om snel de 3D-scène te reconstrueren, waardoor het creëren van weergave-consistente en volledig omsloten 3D-scènes wordt vergemakkelijkt. Specifiek stellen we Stylized Equirectangular Panorama Generation voor, een pijplijn die meerdere diffusiemodellen combineert om gestileerde en gedetailleerde equirectangular panorama's te genereren vanuit complexe tekstprompts. Vervolgens wordt Enhanced Two-Stage Panorama Reconstruction geïntroduceerd, dat een tweestaps optimalisatie van 3D-GS uitvoert om ontbrekende regio's in te vullen en de integriteit van de scène te verbeteren. Uitgebreide experimenten hebben aangetoond dat onze methode eerdere werken overtreft in termen van algehele visuele consistentie en harmonie, evenals reconstructiekwaliteit en renderingsrobuustheid bij het genereren van volledig omsloten scènes.
English
3D scene generation is in high demand across various domains, including virtual reality, gaming, and the film industry. Owing to the powerful generative capabilities of text-to-image diffusion models that provide reliable priors, the creation of 3D scenes using only text prompts has become viable, thereby significantly advancing researches in text-driven 3D scene generation. In order to obtain multiple-view supervision from 2D diffusion models, prevailing methods typically employ the diffusion model to generate an initial local image, followed by iteratively outpainting the local image using diffusion models to gradually generate scenes. Nevertheless, these outpainting-based approaches prone to produce global inconsistent scene generation results without high degree of completeness, restricting their broader applications. To tackle these problems, we introduce HoloDreamer, a framework that first generates high-definition panorama as a holistic initialization of the full 3D scene, then leverage 3D Gaussian Splatting (3D-GS) to quickly reconstruct the 3D scene, thereby facilitating the creation of view-consistent and fully enclosed 3D scenes. Specifically, we propose Stylized Equirectangular Panorama Generation, a pipeline that combines multiple diffusion models to enable stylized and detailed equirectangular panorama generation from complex text prompts. Subsequently, Enhanced Two-Stage Panorama Reconstruction is introduced, conducting a two-stage optimization of 3D-GS to inpaint the missing region and enhance the integrity of the scene. Comprehensive experiments demonstrated that our method outperforms prior works in terms of overall visual consistency and harmony as well as reconstruction quality and rendering robustness when generating fully enclosed scenes.
PDF132February 8, 2026