HoloDreamer: Geração Holística de Mundo Panorâmico 3D a partir de Descrições de Texto
HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions
July 21, 2024
Autores: Haiyang Zhou, Xinhua Cheng, Wangbo Yu, Yonghong Tian, Li Yuan
cs.AI
Resumo
A geração de cenas 3D está em alta demanda em vários domínios, incluindo realidade virtual, jogos e a indústria cinematográfica. Devido às poderosas capacidades generativas dos modelos de difusão texto-imagem que fornecem prioridades confiáveis, a criação de cenas 3D usando apenas prompts de texto se tornou viável, avançando significativamente as pesquisas em geração de cenas 3D orientadas por texto. Para obter supervisão de múltiplas visualizações a partir de modelos de difusão 2D, os métodos predominantes geralmente empregam o modelo de difusão para gerar uma imagem local inicial, seguida pela saída iterativa da imagem local usando modelos de difusão para gerar gradualmente cenas. No entanto, essas abordagens baseadas em saída tendem a produzir resultados globais de geração de cenas inconsistentes sem alto grau de completude, restringindo suas aplicações mais amplas. Para lidar com esses problemas, apresentamos o HoloDreamer, um framework que primeiro gera uma panorâmica de alta definição como uma inicialização holística da cena 3D completa, e em seguida utiliza o Splatting Gaussiano 3D (3D-GS) para reconstruir rapidamente a cena 3D, facilitando assim a criação de cenas 3D consistentes visualmente e totalmente fechadas. Especificamente, propomos a Geração Estilizada de Panorama Equiretangular, um pipeline que combina vários modelos de difusão para permitir a geração estilizada e detalhada de panoramas equiretangulares a partir de prompts de texto complexos. Posteriormente, é introduzida a Reconstrução de Panorama em Dois Estágios Aprimorada, realizando uma otimização em dois estágios do 3D-GS para preencher a região faltante e aprimorar a integridade da cena. Experimentos abrangentes demonstraram que nosso método supera trabalhos anteriores em termos de consistência visual geral e harmonia, bem como qualidade de reconstrução e robustez de renderização ao gerar cenas totalmente fechadas.
English
3D scene generation is in high demand across various domains, including
virtual reality, gaming, and the film industry. Owing to the powerful
generative capabilities of text-to-image diffusion models that provide reliable
priors, the creation of 3D scenes using only text prompts has become viable,
thereby significantly advancing researches in text-driven 3D scene generation.
In order to obtain multiple-view supervision from 2D diffusion models,
prevailing methods typically employ the diffusion model to generate an initial
local image, followed by iteratively outpainting the local image using
diffusion models to gradually generate scenes. Nevertheless, these
outpainting-based approaches prone to produce global inconsistent scene
generation results without high degree of completeness, restricting their
broader applications. To tackle these problems, we introduce HoloDreamer, a
framework that first generates high-definition panorama as a holistic
initialization of the full 3D scene, then leverage 3D Gaussian Splatting
(3D-GS) to quickly reconstruct the 3D scene, thereby facilitating the creation
of view-consistent and fully enclosed 3D scenes. Specifically, we propose
Stylized Equirectangular Panorama Generation, a pipeline that combines multiple
diffusion models to enable stylized and detailed equirectangular panorama
generation from complex text prompts. Subsequently, Enhanced Two-Stage Panorama
Reconstruction is introduced, conducting a two-stage optimization of 3D-GS to
inpaint the missing region and enhance the integrity of the scene.
Comprehensive experiments demonstrated that our method outperforms prior works
in terms of overall visual consistency and harmony as well as reconstruction
quality and rendering robustness when generating fully enclosed scenes.