VidSplat: Reconstrucción con Gaussian Splatting mediante Prioris de Difusión de Video Guiados por Geometría
VidSplat: Gaussian Splatting Reconstruction with Geometry-Guided Video Diffusion Priors
May 12, 2026
Autores: Jimin Tang, Wenyuan Zhang, Junsheng Zhou, Zian Huang, Kanle Shi, Shenkun Xu, Yu-Shen Liu, Zhizhong Han
cs.AI
Resumen
El método de Gaussian Splatting ha logrado un progreso notable en la reconstrucción de superficies desde múltiples vistas, pero presenta una degradación significativa cuando solo se dispone de unas pocas vistas. Aunque esfuerzos recientes alivian este problema mejorando la consistencia multivida para generar superficies plausibles, estos tienen dificultades para inferir regiones no vistas, ocluidas o débilmente restringidas más allá de la cobertura de las entradas. Para abordar esta limitación, presentamos VidSplat, un marco de reconstrucción generativa sin entrenamiento que aprovecha potentes prior de difusión de video para sintetizar iterativamente vistas novedosas que compensen la cobertura faltante de las entradas, y así recuperar escenas 3D completas a partir de entradas dispersas. Específicamente, abordamos dos desafíos clave que permiten la integración efectiva de generación y reconstrucción. Primero, para una generación consistente en 3D, elaboramos una estrategia de eliminación de ruido por etapas sin entrenamiento que guía adaptativamente la dirección de eliminación de ruido hacia la geometría subyacente utilizando las imágenes renderizadas RGB y de máscara. Segundo, para mejorar la reconstrucción, desarrollamos un mecanismo iterativo que muestrea trayectorias de cámara, explora regiones no observadas, sintetiza vistas novedosas y complementa el entrenamiento mediante un refinamiento ponderado por confianza. VidSplat se desempeña de manera robusta ante entradas dispersas e incluso una sola imagen. Experimentos exhaustivos en conjuntos de datos ampliamente utilizados demuestran nuestro rendimiento superior en la reconstrucción de escenas desde vistas dispersas.
English
Gaussian Splatting has achieved remarkable progress in multi-view surface reconstruction, yet it exhibits notable degradation when only few views are available. Although recent efforts alleviate this issue by enhancing multi-view consistency to produce plausible surfaces, they struggle to infer unseen, occluded, or weakly constrained regions beyond the input coverage. To address this limitation, we present VidSplat, a training-free generative reconstruction framework that leverages powerful video diffusion priors to iteratively synthesize novel views that compensate for missing input coverage, and thereby recover complete 3D scenes from sparse inputs. Specifically, we tackle two key challenges that enable the effective integration of generation and reconstruction. First, for 3D consistent generation, we elaborate a training-free, stage-wise denoising strategy that adaptively guides the denoising direction toward the underlying geometry using the rendered RGB and mask images. Second, to enhance the reconstruction, we develop an iterative mechanism that samples camera trajectories, explores unobserved regions, synthesizes novel views, and supplements training through confidence weighted refinement. VidSplat performs robustly to sparse input and even a single image. Extensive experiments on widely used benchmarks demonstrate our superior performance in sparse-view scene reconstruction.