HoloDreamer: Generación Holística de Mundos Panorámicos 3D a partir de Descripciones de Texto
HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions
July 21, 2024
Autores: Haiyang Zhou, Xinhua Cheng, Wangbo Yu, Yonghong Tian, Li Yuan
cs.AI
Resumen
La generación de escenas en 3D tiene una alta demanda en diversos ámbitos, incluyendo la realidad virtual, los videojuegos y la industria cinematográfica. Gracias a las potentes capacidades generativas de los modelos de difusión de texto a imagen que proporcionan priors confiables, la creación de escenas en 3D utilizando solo indicaciones de texto se ha vuelto viable, avanzando significativamente en las investigaciones sobre la generación de escenas en 3D impulsadas por texto. Para obtener supervisión de múltiples vistas a partir de modelos de difusión en 2D, los métodos predominantes suelen emplear el modelo de difusión para generar una imagen local inicial, seguida de la generación iterativa de la imagen local utilizando modelos de difusión para generar gradualmente escenas. Sin embargo, estos enfoques basados en la expansión propensos a producir resultados de generación de escenas globalmente inconsistentes sin un alto grado de completitud, lo que restringe sus aplicaciones más amplias. Para abordar estos problemas, presentamos HoloDreamer, un marco que primero genera un panorama de alta definición como una inicialización holística de la escena en 3D completa, y luego aprovecha el Splatting Gaussiano en 3D (3D-GS) para reconstruir rápidamente la escena en 3D, facilitando así la creación de escenas en 3D consistentes visualmente y completamente cerradas. Específicamente, proponemos la Generación de Panorama Estilizado Equirectangular, un proceso que combina múltiples modelos de difusión para permitir la generación de panoramas equirectangulares estilizados y detallados a partir de indicaciones de texto complejas. Posteriormente, se introduce la Reconstrucción de Panorama de Dos Etapas Mejorada, realizando una optimización de dos etapas de 3D-GS para rellenar la región faltante y mejorar la integridad de la escena. Experimentos exhaustivos demostraron que nuestro método supera a trabajos previos en cuanto a consistencia visual general, armonía, calidad de reconstrucción y robustez de renderizado al generar escenas completamente cerradas.
English
3D scene generation is in high demand across various domains, including
virtual reality, gaming, and the film industry. Owing to the powerful
generative capabilities of text-to-image diffusion models that provide reliable
priors, the creation of 3D scenes using only text prompts has become viable,
thereby significantly advancing researches in text-driven 3D scene generation.
In order to obtain multiple-view supervision from 2D diffusion models,
prevailing methods typically employ the diffusion model to generate an initial
local image, followed by iteratively outpainting the local image using
diffusion models to gradually generate scenes. Nevertheless, these
outpainting-based approaches prone to produce global inconsistent scene
generation results without high degree of completeness, restricting their
broader applications. To tackle these problems, we introduce HoloDreamer, a
framework that first generates high-definition panorama as a holistic
initialization of the full 3D scene, then leverage 3D Gaussian Splatting
(3D-GS) to quickly reconstruct the 3D scene, thereby facilitating the creation
of view-consistent and fully enclosed 3D scenes. Specifically, we propose
Stylized Equirectangular Panorama Generation, a pipeline that combines multiple
diffusion models to enable stylized and detailed equirectangular panorama
generation from complex text prompts. Subsequently, Enhanced Two-Stage Panorama
Reconstruction is introduced, conducting a two-stage optimization of 3D-GS to
inpaint the missing region and enhance the integrity of the scene.
Comprehensive experiments demonstrated that our method outperforms prior works
in terms of overall visual consistency and harmony as well as reconstruction
quality and rendering robustness when generating fully enclosed scenes.Summary
AI-Generated Summary