VidSplat : Reconstruction par Gaussian Splatting avec des Priors de Diffusion Vidéo Guidés par la Géométrie

Résumé

Le Gaussian Splatting a réalisé des progrès remarquables dans la reconstruction de surfaces multi-vues, mais présente une dégradation notable lorsque seules quelques vues sont disponibles. Bien que des travaux récents atténuent ce problème en renforçant la cohérence multi-vue pour produire des surfaces plausibles, ils peinent à inférer les régions non vues, occultées ou faiblement contraintes au-delà de la couverture des données d'entrée. Pour remédier à cette limitation, nous présentons VidSplat, un cadre de reconstruction générative sans entraînement qui exploite de puissants a priori de diffusion vidéo pour synthétiser itérativement de nouvelles vues compensant le manque de couverture des entrées, et ainsi récupérer des scènes 3D complètes à partir d'entrées éparses. Plus précisément, nous abordons deux défis clés permettant l'intégration efficace de la génération et de la reconstruction. Premièrement, pour une génération cohérente en 3D, nous élaborons une stratégie de débruitage par étapes, sans entraînement, qui guide adaptativement la direction du débruitage vers la géométrie sous-jacente en utilisant les images RVB et les masques rendus. Deuxièmement, pour améliorer la reconstruction, nous développons un mécanisme itératif qui échantillonne des trajectoires de caméra, explore les régions non observées, synthétise de nouvelles vues et complète l'entraînement par un raffinement pondéré par la confiance. VidSplat se montre robuste face à des entrées éparses, voire une seule image. Des expériences approfondies sur des références largement utilisées démontrent ses performances supérieures dans la reconstruction de scènes à partir de vues éparses.

English

Gaussian Splatting has achieved remarkable progress in multi-view surface reconstruction, yet it exhibits notable degradation when only few views are available. Although recent efforts alleviate this issue by enhancing multi-view consistency to produce plausible surfaces, they struggle to infer unseen, occluded, or weakly constrained regions beyond the input coverage. To address this limitation, we present VidSplat, a training-free generative reconstruction framework that leverages powerful video diffusion priors to iteratively synthesize novel views that compensate for missing input coverage, and thereby recover complete 3D scenes from sparse inputs. Specifically, we tackle two key challenges that enable the effective integration of generation and reconstruction. First, for 3D consistent generation, we elaborate a training-free, stage-wise denoising strategy that adaptively guides the denoising direction toward the underlying geometry using the rendered RGB and mask images. Second, to enhance the reconstruction, we develop an iterative mechanism that samples camera trajectories, explores unobserved regions, synthesizes novel views, and supplements training through confidence weighted refinement. VidSplat performs robustly to sparse input and even a single image. Extensive experiments on widely used benchmarks demonstrate our superior performance in sparse-view scene reconstruction.

VidSplat : Reconstruction par Gaussian Splatting avec des Priors de Diffusion Vidéo Guidés par la Géométrie

VidSplat: Gaussian Splatting Reconstruction with Geometry-Guided Video Diffusion Priors

Résumé

Support