ChatPaper.aiChatPaper

VidSplat: Gaussian Splatting Rekonstruktion mit geometriegeführten Video-Diffusions-Priors

VidSplat: Gaussian Splatting Reconstruction with Geometry-Guided Video Diffusion Priors

May 12, 2026
Autoren: Jimin Tang, Wenyuan Zhang, Junsheng Zhou, Zian Huang, Kanle Shi, Shenkun Xu, Yu-Shen Liu, Zhizhong Han
cs.AI

Zusammenfassung

Gaussian Splatting hat bemerkenswerte Fortschritte bei der multiview-Oberflächenrekonstruktion erzielt, zeigt jedoch eine deutliche Verschlechterung, wenn nur wenige Ansichten verfügbar sind. Obwohl neuere Ansätze dieses Problem durch Verbesserung der Multiview-Konsistenz zur Erzeugung plausibler Oberflächen abmildern, fällt es ihnen schwer, unsichtbare, verdeckte oder schwach eingeschränkte Regionen jenseits der Eingabedeckung zu erschließen. Um diese Einschränkung zu beheben, präsentieren wir VidSplat, ein trainingsfreies generatives Rekonstruktionsframework, das leistungsstarke Videodiffusions-Priors nutzt, um iterativ neue Ansichten zu synthetisieren, die fehlende Eingabedeckung kompensieren, und so vollständige 3D-Szenen aus spärlichen Eingaben rekonstruiert. Insbesondere adressieren wir zwei zentrale Herausforderungen, die eine effektive Integration von Generierung und Rekonstruktion ermöglichen. Erstens entwickeln wir für eine 3D-konsistente Generierung eine trainingsfreie, stufenweise Denoising-Strategie, die mithilfe der gerenderten RGB- und Maskenbilder die Denoising-Richtung adaptiv in Richtung der zugrunde liegenden Geometrie lenkt. Zweitens entwickeln wir zur Verbesserung der Rekonstruktion einen iterativen Mechanismus, der Kameratrajektorien abtastet, unbeobachtete Regionen erkundet, neue Ansichten synthetisiert und das Training durch konfidenzgewichtet verfeinerte Verfeinerung ergänzt. VidSplat arbeitet robust mit spärlichen Eingaben und sogar einem einzelnen Bild. Umfangreiche Experimente auf weit verbreiteten Benchmarks belegen unsere überlegene Leistung bei der multiview-Szenenrekonstruktion aus spärlichen Ansichten.
English
Gaussian Splatting has achieved remarkable progress in multi-view surface reconstruction, yet it exhibits notable degradation when only few views are available. Although recent efforts alleviate this issue by enhancing multi-view consistency to produce plausible surfaces, they struggle to infer unseen, occluded, or weakly constrained regions beyond the input coverage. To address this limitation, we present VidSplat, a training-free generative reconstruction framework that leverages powerful video diffusion priors to iteratively synthesize novel views that compensate for missing input coverage, and thereby recover complete 3D scenes from sparse inputs. Specifically, we tackle two key challenges that enable the effective integration of generation and reconstruction. First, for 3D consistent generation, we elaborate a training-free, stage-wise denoising strategy that adaptively guides the denoising direction toward the underlying geometry using the rendered RGB and mask images. Second, to enhance the reconstruction, we develop an iterative mechanism that samples camera trajectories, explores unobserved regions, synthesizes novel views, and supplements training through confidence weighted refinement. VidSplat performs robustly to sparse input and even a single image. Extensive experiments on widely used benchmarks demonstrate our superior performance in sparse-view scene reconstruction.
PDF20May 14, 2026