ChatPaper.aiChatPaper

HoloDreamer : Génération holistique de mondes panoramiques 3D à partir de descriptions textuelles

HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions

July 21, 2024
Auteurs: Haiyang Zhou, Xinhua Cheng, Wangbo Yu, Yonghong Tian, Li Yuan
cs.AI

Résumé

La génération de scènes 3D est très demandée dans divers domaines, notamment la réalité virtuelle, les jeux vidéo et l'industrie cinématographique. Grâce aux puissantes capacités génératives des modèles de diffusion texte-image qui fournissent des a priori fiables, la création de scènes 3D à partir de simples prompts textuels est devenue réalisable, ce qui a considérablement fait progresser les recherches sur la génération de scènes 3D pilotée par le texte. Afin d'obtenir une supervision multi-vues à partir de modèles de diffusion 2D, les méthodes prédominantes utilisent généralement un modèle de diffusion pour générer une image locale initiale, puis procèdent à un étalement itératif de cette image locale à l'aide de modèles de diffusion pour générer progressivement des scènes. Cependant, ces approches basées sur l'étalement ont tendance à produire des résultats de génération de scènes globalement incohérents et manquant de complétude, limitant ainsi leurs applications plus larges. Pour résoudre ces problèmes, nous présentons HoloDreamer, un cadre qui génère d'abord une panoramique haute définition comme initialisation holistique de la scène 3D complète, puis exploite le 3D Gaussian Splatting (3D-GS) pour reconstruire rapidement la scène 3D, facilitant ainsi la création de scènes 3D cohérentes en termes de vue et entièrement fermées. Plus précisément, nous proposons la Génération de Panoramas Équirectangulaires Stylisés, un pipeline qui combine plusieurs modèles de diffusion pour permettre la génération de panoramas équirectangulaires stylisés et détaillés à partir de prompts textuels complexes. Par la suite, la Reconstruction de Panoramas en Deux Étapes Améliorée est introduite, effectuant une optimisation en deux étapes du 3D-GS pour combler les régions manquantes et améliorer l'intégrité de la scène. Des expériences approfondies ont démontré que notre méthode surpasse les travaux antérieurs en termes de cohérence visuelle globale et d'harmonie, ainsi que de qualité de reconstruction et de robustesse de rendu lors de la génération de scènes entièrement fermées.
English
3D scene generation is in high demand across various domains, including virtual reality, gaming, and the film industry. Owing to the powerful generative capabilities of text-to-image diffusion models that provide reliable priors, the creation of 3D scenes using only text prompts has become viable, thereby significantly advancing researches in text-driven 3D scene generation. In order to obtain multiple-view supervision from 2D diffusion models, prevailing methods typically employ the diffusion model to generate an initial local image, followed by iteratively outpainting the local image using diffusion models to gradually generate scenes. Nevertheless, these outpainting-based approaches prone to produce global inconsistent scene generation results without high degree of completeness, restricting their broader applications. To tackle these problems, we introduce HoloDreamer, a framework that first generates high-definition panorama as a holistic initialization of the full 3D scene, then leverage 3D Gaussian Splatting (3D-GS) to quickly reconstruct the 3D scene, thereby facilitating the creation of view-consistent and fully enclosed 3D scenes. Specifically, we propose Stylized Equirectangular Panorama Generation, a pipeline that combines multiple diffusion models to enable stylized and detailed equirectangular panorama generation from complex text prompts. Subsequently, Enhanced Two-Stage Panorama Reconstruction is introduced, conducting a two-stage optimization of 3D-GS to inpaint the missing region and enhance the integrity of the scene. Comprehensive experiments demonstrated that our method outperforms prior works in terms of overall visual consistency and harmony as well as reconstruction quality and rendering robustness when generating fully enclosed scenes.

Summary

AI-Generated Summary

PDF132November 28, 2024