ChatPaper.aiChatPaper

HoloDreamer: テキスト記述からのホリスティック3Dパノラマ世界生成

HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions

July 21, 2024
著者: Haiyang Zhou, Xinhua Cheng, Wangbo Yu, Yonghong Tian, Li Yuan
cs.AI

要旨

3Dシーン生成は、仮想現実、ゲーム、映画産業など様々な分野で高い需要があります。テキストから画像を生成する拡散モデルの強力な生成能力が信頼性の高い事前情報を提供するため、テキストプロンプトのみを使用した3Dシーンの作成が可能となり、テキスト駆動型3Dシーン生成の研究が大きく進展しています。2D拡散モデルから多視点の監督情報を得るために、一般的な手法では、拡散モデルを使用して初期の局所画像を生成し、その後、拡散モデルを用いて局所画像を反復的に拡張することでシーンを徐々に生成します。しかし、これらの拡張ベースのアプローチでは、完全性の高いグローバルに一貫したシーン生成結果が得られず、その広範な応用が制限されています。これらの問題を解決するため、我々はHoloDreamerを提案します。このフレームワークは、まず高精細なパノラマを生成して完全な3Dシーンのホリスティックな初期化を行い、その後3Dガウシアンスプラッティング(3D-GS)を活用して3Dシーンを迅速に再構築し、視点一貫性と完全に閉じた3Dシーンの作成を容易にします。具体的には、複数の拡散モデルを組み合わせて複雑なテキストプロンプトからスタイリッシュで詳細な等距離円柱パノラマを生成するパイプラインであるStylized Equirectangular Panorama Generationを提案します。さらに、Enhanced Two-Stage Panorama Reconstructionを導入し、3D-GSの2段階最適化を行って欠損領域を修復し、シーンの完全性を向上させます。包括的な実験により、我々の手法が完全に閉じたシーンを生成する際に、全体的な視覚的一貫性と調和、再構築品質、レンダリングの堅牢性の点で先行研究を上回ることが実証されました。
English
3D scene generation is in high demand across various domains, including virtual reality, gaming, and the film industry. Owing to the powerful generative capabilities of text-to-image diffusion models that provide reliable priors, the creation of 3D scenes using only text prompts has become viable, thereby significantly advancing researches in text-driven 3D scene generation. In order to obtain multiple-view supervision from 2D diffusion models, prevailing methods typically employ the diffusion model to generate an initial local image, followed by iteratively outpainting the local image using diffusion models to gradually generate scenes. Nevertheless, these outpainting-based approaches prone to produce global inconsistent scene generation results without high degree of completeness, restricting their broader applications. To tackle these problems, we introduce HoloDreamer, a framework that first generates high-definition panorama as a holistic initialization of the full 3D scene, then leverage 3D Gaussian Splatting (3D-GS) to quickly reconstruct the 3D scene, thereby facilitating the creation of view-consistent and fully enclosed 3D scenes. Specifically, we propose Stylized Equirectangular Panorama Generation, a pipeline that combines multiple diffusion models to enable stylized and detailed equirectangular panorama generation from complex text prompts. Subsequently, Enhanced Two-Stage Panorama Reconstruction is introduced, conducting a two-stage optimization of 3D-GS to inpaint the missing region and enhance the integrity of the scene. Comprehensive experiments demonstrated that our method outperforms prior works in terms of overall visual consistency and harmony as well as reconstruction quality and rendering robustness when generating fully enclosed scenes.

Summary

AI-Generated Summary

PDF132November 28, 2024