ChatPaper.aiChatPaper

VidSplat: 幾何学的ガイド付きビデオ拡散事前分布を用いたガウシアン・スプラッティング再構成

VidSplat: Gaussian Splatting Reconstruction with Geometry-Guided Video Diffusion Priors

May 12, 2026
著者: Jimin Tang, Wenyuan Zhang, Junsheng Zhou, Zian Huang, Kanle Shi, Shenkun Xu, Yu-Shen Liu, Zhizhong Han
cs.AI

要旨

ガウシアンスプラッティングは多視点表面再構成において顕著な進展を遂げているものの、少数視点のみが利用可能な場合には著しい性能低下を示す。近年の取り組みでは、多視点一貫性を強化して plausibility の高い表面を生成することでこの問題を緩和しているが、入力範囲を超える未観測領域、遮蔽領域、弱拘束領域を推論することは困難である。この限界に対処するため、本論文ではVidSplatを提案する。これは学習不要な生成的再構成フレームワークであり、強力なビデオ拡散事前分布を活用して、不足する入力カバレッジを補う新規視点を反復的に合成し、疎な入力から完全な3Dシーンを復元する。具体的には、生成と再構成の効果的な統合を実現するための2つの主要な課題に取り組む。第一に、3D一貫性のある生成のために、学習不要な段階的ノイズ除去戦略を考案し、レンダリングされたRGB画像とマスク画像を用いてノイズ除去方向を基礎となる形状へ適応的に導く。第二に、再構成を強化するために、カメラ軌道をサンプリングし、未観測領域を探索し、新規視点を合成し、信頼度重み付き洗練を通じて訓練を補完する反復機構を開発する。VidSplatは疎な入力、さらには単一画像に対してもロバストに動作する。広く用いられているベンチマークでの大規模な実験により、疎視点シーン再構成における優れた性能が実証される。
English
Gaussian Splatting has achieved remarkable progress in multi-view surface reconstruction, yet it exhibits notable degradation when only few views are available. Although recent efforts alleviate this issue by enhancing multi-view consistency to produce plausible surfaces, they struggle to infer unseen, occluded, or weakly constrained regions beyond the input coverage. To address this limitation, we present VidSplat, a training-free generative reconstruction framework that leverages powerful video diffusion priors to iteratively synthesize novel views that compensate for missing input coverage, and thereby recover complete 3D scenes from sparse inputs. Specifically, we tackle two key challenges that enable the effective integration of generation and reconstruction. First, for 3D consistent generation, we elaborate a training-free, stage-wise denoising strategy that adaptively guides the denoising direction toward the underlying geometry using the rendered RGB and mask images. Second, to enhance the reconstruction, we develop an iterative mechanism that samples camera trajectories, explores unobserved regions, synthesizes novel views, and supplements training through confidence weighted refinement. VidSplat performs robustly to sparse input and even a single image. Extensive experiments on widely used benchmarks demonstrate our superior performance in sparse-view scene reconstruction.
PDF20May 14, 2026