ChatPaper.aiChatPaper

HoloDreamer: 텍스트 설명에서의 통합적 3D 파노라마 세계 생성

HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions

July 21, 2024
저자: Haiyang Zhou, Xinhua Cheng, Wangbo Yu, Yonghong Tian, Li Yuan
cs.AI

초록

3D 장면 생성은 가상 현실, 게임, 영화 산업 등 다양한 분야에서 높은 수요를 보이고 있습니다. 텍스트-이미지 확산 모델의 강력한 생성 능력이 신뢰할 수 있는 사전 정보를 제공함에 따라, 텍스트 프롬프트만을 사용하여 3D 장면을 생성하는 것이 가능해졌으며, 이는 텍스트 기반 3D 장면 생성 연구를 크게 발전시켰습니다. 2D 확산 모델로부터 다중 뷰 감독을 얻기 위해, 일반적인 방법은 확산 모델을 사용하여 초기 로컬 이미지를 생성한 후, 확산 모델을 반복적으로 사용하여 로컬 이미지를 확장하여 점진적으로 장면을 생성합니다. 그러나 이러한 확장 기반 접근법은 전역적으로 일관되지 않은 장면 생성 결과를 생성하기 쉬우며 높은 완성도를 갖추지 못해, 더 넓은 적용을 제한합니다. 이러한 문제를 해결하기 위해, 우리는 HoloDreamer를 소개합니다. 이 프레임워크는 먼저 전체 3D 장면의 전체적인 초기화로서 고해상도 파노라마를 생성한 후, 3D 가우시안 스플래팅(3D-GS)을 활용하여 빠르게 3D 장면을 재구성함으로써, 뷰 일관성과 완전히 폐쇄된 3D 장면의 생성을 용이하게 합니다. 구체적으로, 우리는 스타일화된 등거리 파노라마 생성을 제안합니다. 이 파이프라인은 여러 확산 모델을 결합하여 복잡한 텍스트 프롬프트로부터 스타일화되고 세부적인 등거리 파노라마 생성을 가능하게 합니다. 이후, 향상된 두 단계 파노라마 재구성이 도입되어, 3D-GS의 두 단계 최적화를 통해 누락된 영역을 보완하고 장면의 완전성을 강화합니다. 포괄적인 실험을 통해, 우리의 방법이 완전히 폐쇄된 장면을 생성할 때 전반적인 시각적 일관성과 조화, 재구성 품질 및 렌더링 견고성 측면에서 기존 작업들을 능가함을 입증했습니다.
English
3D scene generation is in high demand across various domains, including virtual reality, gaming, and the film industry. Owing to the powerful generative capabilities of text-to-image diffusion models that provide reliable priors, the creation of 3D scenes using only text prompts has become viable, thereby significantly advancing researches in text-driven 3D scene generation. In order to obtain multiple-view supervision from 2D diffusion models, prevailing methods typically employ the diffusion model to generate an initial local image, followed by iteratively outpainting the local image using diffusion models to gradually generate scenes. Nevertheless, these outpainting-based approaches prone to produce global inconsistent scene generation results without high degree of completeness, restricting their broader applications. To tackle these problems, we introduce HoloDreamer, a framework that first generates high-definition panorama as a holistic initialization of the full 3D scene, then leverage 3D Gaussian Splatting (3D-GS) to quickly reconstruct the 3D scene, thereby facilitating the creation of view-consistent and fully enclosed 3D scenes. Specifically, we propose Stylized Equirectangular Panorama Generation, a pipeline that combines multiple diffusion models to enable stylized and detailed equirectangular panorama generation from complex text prompts. Subsequently, Enhanced Two-Stage Panorama Reconstruction is introduced, conducting a two-stage optimization of 3D-GS to inpaint the missing region and enhance the integrity of the scene. Comprehensive experiments demonstrated that our method outperforms prior works in terms of overall visual consistency and harmony as well as reconstruction quality and rendering robustness when generating fully enclosed scenes.

Summary

AI-Generated Summary

PDF132November 28, 2024