ReconX: ビデオ拡散モデルによる疎な視点からの任意シーンの再構築
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model
August 29, 2024
著者: Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan
cs.AI
要旨
3Dシーン再構成技術の進展により、現実世界の2D画像から3Dモデルへの変換が可能となり、数百枚の入力写真からリアルな3D結果を生成できるようになりました。密な視点からの再構成シナリオでは大きな成功を収めていますが、十分に捕捉されていない視点からの詳細なシーンのレンダリングは、依然として不良設定最適化問題であり、未観測領域でのアーティファクトや歪みが生じることが多いです。本論文では、曖昧な再構成課題を時間的生成タスクとして再定義する新しい3Dシーン再構成パラダイム「ReconX」を提案します。鍵となる洞察は、大規模事前学習済みビデオ拡散モデルの強力な生成事前分布を、疎な視点からの再構成に活用することです。しかし、事前学習済みモデルから直接生成されたビデオフレームでは、3D視点一貫性を正確に維持することが困難です。この問題に対処するため、限られた入力視点が与えられた場合、提案するReconXはまずグローバルな点群を構築し、それを3D構造条件としてコンテキスト空間にエンコードします。この条件に導かれて、ビデオ拡散モデルは詳細を保持しつつ高い3D一貫性を示すビデオフレームを合成し、様々な視点からのシーンの整合性を確保します。最後に、生成されたビデオから信頼度を考慮した3Dガウシアンスプラッティング最適化スキームを通じて3Dシーンを復元します。様々な実世界データセットでの大規模な実験により、ReconXが品質と汎用性の面で最先端の手法を凌駕することを示します。
English
Advancements in 3D scene reconstruction have transformed 2D images from the
real world into 3D models, producing realistic 3D results from hundreds of
input photos. Despite great success in dense-view reconstruction scenarios,
rendering a detailed scene from insufficient captured views is still an
ill-posed optimization problem, often resulting in artifacts and distortions in
unseen areas. In this paper, we propose ReconX, a novel 3D scene reconstruction
paradigm that reframes the ambiguous reconstruction challenge as a temporal
generation task. The key insight is to unleash the strong generative prior of
large pre-trained video diffusion models for sparse-view reconstruction.
However, 3D view consistency struggles to be accurately preserved in directly
generated video frames from pre-trained models. To address this, given limited
input views, the proposed ReconX first constructs a global point cloud and
encodes it into a contextual space as the 3D structure condition. Guided by the
condition, the video diffusion model then synthesizes video frames that are
both detail-preserved and exhibit a high degree of 3D consistency, ensuring the
coherence of the scene from various perspectives. Finally, we recover the 3D
scene from the generated video through a confidence-aware 3D Gaussian Splatting
optimization scheme. Extensive experiments on various real-world datasets show
the superiority of our ReconX over state-of-the-art methods in terms of quality
and generalizability.