HoloDreamer: Ganzheitliche 3D-Panorama-Weltgenerierung aus Textbeschreibungen
HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions
July 21, 2024
Autoren: Haiyang Zhou, Xinhua Cheng, Wangbo Yu, Yonghong Tian, Li Yuan
cs.AI
Zusammenfassung
Die Generierung von 3D-Szenen ist in verschiedenen Bereichen, darunter Virtual Reality, Gaming und der Filmindustrie, stark gefragt. Dank der leistungsstarken generativen Fähigkeiten von Text-zu-Bild-Diffusionsmodellen, die zuverlässige Priors liefern, ist die Erstellung von 3D-Szenen nur anhand von Texteingaben möglich geworden, was die Forschung im Bereich der textgesteuerten 3D-Szenengenerierung erheblich vorantreibt. Um mehrfache Ansichten von 2D-Diffusionsmodellen zu erhalten, verwenden gängige Methoden in der Regel das Diffusionsmodell, um ein initiales lokales Bild zu generieren, gefolgt von der schrittweisen Erweiterung des lokalen Bildes mithilfe von Diffusionsmodellen, um Szenen allmählich zu generieren. Dennoch neigen diese auf Erweiterung basierenden Ansätze dazu, globale inkonsistente Szenengenerierungsergebnisse mit unvollständigem Grad zu erzeugen, was ihre breitere Anwendung einschränkt. Um diese Probleme zu bewältigen, stellen wir HoloDreamer vor, ein Framework, das zunächst hochauflösende Panoramen als ganzheitliche Initialisierung der vollständigen 3D-Szene generiert und dann 3D-Gauß-Splatting (3D-GS) nutzt, um die 3D-Szene schnell zu rekonstruieren, was die Erstellung von konsistenten und vollständig umschlossenen 3D-Szenen erleichtert. Konkret schlagen wir die Generierung von stilisierten equirectangular Panoramen vor, ein Verfahren, das mehrere Diffusionsmodelle kombiniert, um stilisierte und detaillierte equirectangular Panoramen aus komplexen Texteingaben zu ermöglichen. Anschließend wird die verbesserte zweistufige Panorama-Rekonstruktion eingeführt, die eine zweistufige Optimierung von 3D-GS durchführt, um den fehlenden Bereich zu ergänzen und die Integrität der Szene zu verbessern. Umfassende Experimente haben gezeigt, dass unsere Methode hinsichtlich der Gesamtvisuellen Konsistenz und Harmonie sowie der Rekonstruktionsqualität und Rendering-Robustheit bei der Generierung vollständig umschlossener Szenen frühere Arbeiten übertrifft.
English
3D scene generation is in high demand across various domains, including
virtual reality, gaming, and the film industry. Owing to the powerful
generative capabilities of text-to-image diffusion models that provide reliable
priors, the creation of 3D scenes using only text prompts has become viable,
thereby significantly advancing researches in text-driven 3D scene generation.
In order to obtain multiple-view supervision from 2D diffusion models,
prevailing methods typically employ the diffusion model to generate an initial
local image, followed by iteratively outpainting the local image using
diffusion models to gradually generate scenes. Nevertheless, these
outpainting-based approaches prone to produce global inconsistent scene
generation results without high degree of completeness, restricting their
broader applications. To tackle these problems, we introduce HoloDreamer, a
framework that first generates high-definition panorama as a holistic
initialization of the full 3D scene, then leverage 3D Gaussian Splatting
(3D-GS) to quickly reconstruct the 3D scene, thereby facilitating the creation
of view-consistent and fully enclosed 3D scenes. Specifically, we propose
Stylized Equirectangular Panorama Generation, a pipeline that combines multiple
diffusion models to enable stylized and detailed equirectangular panorama
generation from complex text prompts. Subsequently, Enhanced Two-Stage Panorama
Reconstruction is introduced, conducting a two-stage optimization of 3D-GS to
inpaint the missing region and enhance the integrity of the scene.
Comprehensive experiments demonstrated that our method outperforms prior works
in terms of overall visual consistency and harmony as well as reconstruction
quality and rendering robustness when generating fully enclosed scenes.Summary
AI-Generated Summary