ChatPaper.aiChatPaper

VidSplat: 기하학 기반 비디오 확산 사전 정보를 활용한 가우시안 스플래팅 재구성

VidSplat: Gaussian Splatting Reconstruction with Geometry-Guided Video Diffusion Priors

May 12, 2026
저자: Jimin Tang, Wenyuan Zhang, Junsheng Zhou, Zian Huang, Kanle Shi, Shenkun Xu, Yu-Shen Liu, Zhizhong Han
cs.AI

초록

가우시안 스플래팅(Gaussian Splatting)은 다중 시점 표면 재구성에서 놀라운 진전을 이루었지만, 소수의 시점만 사용 가능할 때는 현저한 성능 저하를 보인다. 최근 연구들은 다중 시점 일관성을 강화하여 그럴듯한 표면을 생성함으로써 이 문제를 완화하려고 시도하지만, 입력 범위를 벗어난 보이지 않거나 가려지거나 약하게 제약된 영역을 추론하는 데 어려움을 겪는다. 이러한 한계를 해결하기 위해, 우리는 VidSplat를 제시한다. 이는 훈련이 필요 없는 생성적 재구성 프레임워크로, 강력한 비디오 확산 사전(video diffusion priors)을 활용하여 누락된 입력 범위를 보완하는 새로운 시점을 반복적으로 합성함으로써 희소 입력으로부터 완전한 3D 장면을 복원한다. 구체적으로, 우리는 생성과 재구성의 효과적인 통합을 가능하게 하는 두 가지 핵심 과제를 해결한다. 첫째, 3D 일관된 생성을 위해, 렌더링된 RGB 및 마스크 이미지를 사용하여 노이즈 제거 방향을 기본 형상으로 적응적으로 유도하는, 훈련이 필요 없는 단계별 노이즈 제거 전략을 정교하게 설계한다. 둘째, 재구성을 향상시키기 위해, 카메라 궤적을 샘플링하고, 관찰되지 않은 영역을 탐색하며, 새로운 시점을 합성하고, 신뢰도 가중치 정제(refinement)를 통해 훈련을 보완하는 반복적 메커니즘을 개발한다. VidSplat는 희소 입력 및 단일 이미지에 대해서도 강건하게 작동한다. 널리 사용되는 벤치마크에 대한 광범위한 실험은 희소 시점 장면 재구성에서 우리의 우수한 성능을 입증한다.
English
Gaussian Splatting has achieved remarkable progress in multi-view surface reconstruction, yet it exhibits notable degradation when only few views are available. Although recent efforts alleviate this issue by enhancing multi-view consistency to produce plausible surfaces, they struggle to infer unseen, occluded, or weakly constrained regions beyond the input coverage. To address this limitation, we present VidSplat, a training-free generative reconstruction framework that leverages powerful video diffusion priors to iteratively synthesize novel views that compensate for missing input coverage, and thereby recover complete 3D scenes from sparse inputs. Specifically, we tackle two key challenges that enable the effective integration of generation and reconstruction. First, for 3D consistent generation, we elaborate a training-free, stage-wise denoising strategy that adaptively guides the denoising direction toward the underlying geometry using the rendered RGB and mask images. Second, to enhance the reconstruction, we develop an iterative mechanism that samples camera trajectories, explores unobserved regions, synthesizes novel views, and supplements training through confidence weighted refinement. VidSplat performs robustly to sparse input and even a single image. Extensive experiments on widely used benchmarks demonstrate our superior performance in sparse-view scene reconstruction.
PDF20May 14, 2026