ChatPaper.aiChatPaper

VidSplat: Реконструкция гауссова сплаттинга с геометрически управляемыми априорными распределениями видео-диффузии

VidSplat: Gaussian Splatting Reconstruction with Geometry-Guided Video Diffusion Priors

May 12, 2026
Авторы: Jimin Tang, Wenyuan Zhang, Junsheng Zhou, Zian Huang, Kanle Shi, Shenkun Xu, Yu-Shen Liu, Zhizhong Han
cs.AI

Аннотация

Гауссово разбрызгивание достигло значительного прогресса в многовидовой реконструкции поверхности, однако демонстрирует заметное ухудшение качества при наличии лишь малого числа ракурсов. Хотя недавние работы смягчают эту проблему за счёт повышения многовзглядовой согласованности для получения правдоподобных поверхностей, они всё же не способны корректно восстановить невидимые, затенённые или слабо ограниченные области за пределами покрытия входных данных. Для преодоления этого ограничения мы представляем VidSplat — безытерационную генеративную реконструкционную структуру, которая использует мощные априорные знания видеодиффузии для итеративного синтеза новых ракурсов, компенсирующих недостаток входного покрытия, и тем самым восстанавливает полные трёхмерные сцены из разреженных данных. В частности, мы решаем две ключевые задачи, обеспечивающие эффективную интеграцию генерации и реконструкции. Во-первых, для трёхмерно-согласованной генерации мы разрабатываем безытерационную поэтапную стратегию шумоподавления, которая адаптивно направляет процесс шумоподавления в сторону лежащей в основе геометрии, используя рендерированные RGB-изображения и маски. Во-вторых, для улучшения реконструкции мы создаём итеративный механизм, который выбирает траектории камеры, исследует ненаблюдаемые области, синтезирует новые ракурсы и дополняет обучение за счёт уточнения с взвешиванием по достоверности. VidSplat устойчив к разреженным входным данным и даже к единственному изображению. Обширные эксперименты на широко используемых эталонных наборах данных демонстрируют превосходную производительность нашего метода в разреженной реконструкции сцены.
English
Gaussian Splatting has achieved remarkable progress in multi-view surface reconstruction, yet it exhibits notable degradation when only few views are available. Although recent efforts alleviate this issue by enhancing multi-view consistency to produce plausible surfaces, they struggle to infer unseen, occluded, or weakly constrained regions beyond the input coverage. To address this limitation, we present VidSplat, a training-free generative reconstruction framework that leverages powerful video diffusion priors to iteratively synthesize novel views that compensate for missing input coverage, and thereby recover complete 3D scenes from sparse inputs. Specifically, we tackle two key challenges that enable the effective integration of generation and reconstruction. First, for 3D consistent generation, we elaborate a training-free, stage-wise denoising strategy that adaptively guides the denoising direction toward the underlying geometry using the rendered RGB and mask images. Second, to enhance the reconstruction, we develop an iterative mechanism that samples camera trajectories, explores unobserved regions, synthesizes novel views, and supplements training through confidence weighted refinement. VidSplat performs robustly to sparse input and even a single image. Extensive experiments on widely used benchmarks demonstrate our superior performance in sparse-view scene reconstruction.
PDF20May 14, 2026