ChatPaper.aiChatPaper

LucidDreamer: ドメインフリーな3Dガウススプラッティングシーンの生成

LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes

November 22, 2023
著者: Jaeyoung Chung, Suyoung Lee, Hyeongjin Nam, Jaerin Lee, Kyoung Mu Lee
cs.AI

要旨

VRデバイスとコンテンツの普及に伴い、3Dシーン生成技術への需要が高まっています。しかし、既存の3Dシーン生成モデルは、現実世界からかけ離れた3Dスキャンデータセットを使用したトレーニング戦略のため、特定のドメインに限定されています。この制限を解決するため、我々は既存の大規模拡散ベース生成モデルの力を最大限に活用したドメインフリーのシーン生成パイプラインであるLucidDreamerを提案します。LucidDreamerは、DreamingとAlignmentという2つの交互のステップで構成されています。まず、入力から多視点一貫性のある画像を生成するために、点群を各画像生成の幾何学的ガイドラインとして設定します。具体的には、点群の一部を所望の視点に投影し、その投影を生成モデルを用いたインペインティングのガイダンスとして提供します。インペインティングされた画像は、推定された深度マップと共に3D空間にリフトされ、新しい点群を構成します。次に、新しく生成された3Dシーンの部分を調和して統合するアラインメントアルゴリズムを提案し、新しい点群を3Dシーンに集約します。最終的に得られた3Dシーンは、ガウススプラットを最適化するための初期点として機能します。LucidDreamerは、従来の3Dシーン生成方法と比較して非常に詳細なガウススプラットを生成し、対象シーンのドメインに制約がありません。
English
With the widespread usage of VR devices and contents, demands for 3D scene generation techniques become more popular. Existing 3D scene generation models, however, limit the target scene to specific domain, primarily due to their training strategies using 3D scan dataset that is far from the real-world. To address such limitation, we propose LucidDreamer, a domain-free scene generation pipeline by fully leveraging the power of existing large-scale diffusion-based generative model. Our LucidDreamer has two alternate steps: Dreaming and Alignment. First, to generate multi-view consistent images from inputs, we set the point cloud as a geometrical guideline for each image generation. Specifically, we project a portion of point cloud to the desired view and provide the projection as a guidance for inpainting using the generative model. The inpainted images are lifted to 3D space with estimated depth maps, composing a new points. Second, to aggregate the new points into the 3D scene, we propose an aligning algorithm which harmoniously integrates the portions of newly generated 3D scenes. The finally obtained 3D scene serves as initial points for optimizing Gaussian splats. LucidDreamer produces Gaussian splats that are highly-detailed compared to the previous 3D scene generation methods, with no constraint on domain of the target scene.
PDF534December 15, 2024