InstantSplat: Representação por Splatting Gaussiano de Visão Esparsa e Sem Pose em 40 Segundos
InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds
March 29, 2024
Autores: Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang
cs.AI
Resumo
Embora a síntese de novas visões (NVS) tenha feito progressos significativos na visão computacional 3D, ela geralmente requer uma estimativa inicial das intrínsecas e extrínsecas da câmera a partir de pontos de vista densos. Esse pré-processamento é normalmente realizado por meio de um pipeline de Estrutura a partir do Movimento (SfM), um procedimento que pode ser lento e pouco confiável, especialmente em cenários de visão esparsa com características correspondentes insuficientes para uma reconstrução precisa. Neste trabalho, integramos os pontos fortes das representações baseadas em pontos (por exemplo, 3D Gaussian Splatting, 3D-GS) com modelos de estéreo denso de ponta a ponta (DUSt3R) para abordar os problemas complexos e ainda não resolvidos na NVS em configurações não restritas, que abrangem desafios de poses livres e visão esparsa. Nosso framework, InstantSplat, unifica prioridades de estéreo denso com 3D-GS para construir Gaussianas 3D de cenas em grande escala a partir de imagens de visão esparsa e sem poses em menos de 1 minuto. Especificamente, o InstantSplat compreende um módulo de Inicialização Geométrica Grosseira (CGI) que estabelece rapidamente uma estrutura de cena preliminar e parâmetros da câmera em todas as visões de treinamento, utilizando mapas de pontos 3D globalmente alinhados derivados de um pipeline de estéreo denso pré-treinado. Isso é seguido pelo módulo de Otimização Rápida de Gaussianas 3D (F-3DGO), que otimiza conjuntamente os atributos das Gaussianas 3D e as poses inicializadas com regularização de pose. Experimentos realizados nos conjuntos de dados de grande escala ao ar livre Tanks & Temples demonstram que o InstantSplat melhora significativamente o SSIM (em 32%) enquanto reduz o Erro Absoluto de Trajetória (ATE) em 80%. Isso estabelece o InstantSplat como uma solução viável para cenários envolvendo condições de poses livres e visão esparsa. Página do projeto: instantsplat.github.io.
English
While novel view synthesis (NVS) has made substantial progress in 3D computer
vision, it typically requires an initial estimation of camera intrinsics and
extrinsics from dense viewpoints. This pre-processing is usually conducted via
a Structure-from-Motion (SfM) pipeline, a procedure that can be slow and
unreliable, particularly in sparse-view scenarios with insufficient matched
features for accurate reconstruction. In this work, we integrate the strengths
of point-based representations (e.g., 3D Gaussian Splatting, 3D-GS) with
end-to-end dense stereo models (DUSt3R) to tackle the complex yet unresolved
issues in NVS under unconstrained settings, which encompasses pose-free and
sparse view challenges. Our framework, InstantSplat, unifies dense stereo
priors with 3D-GS to build 3D Gaussians of large-scale scenes from sparseview &
pose-free images in less than 1 minute. Specifically, InstantSplat comprises a
Coarse Geometric Initialization (CGI) module that swiftly establishes a
preliminary scene structure and camera parameters across all training views,
utilizing globally-aligned 3D point maps derived from a pre-trained dense
stereo pipeline. This is followed by the Fast 3D-Gaussian Optimization (F-3DGO)
module, which jointly optimizes the 3D Gaussian attributes and the initialized
poses with pose regularization. Experiments conducted on the large-scale
outdoor Tanks & Temples datasets demonstrate that InstantSplat significantly
improves SSIM (by 32%) while concurrently reducing Absolute Trajectory Error
(ATE) by 80%. These establish InstantSplat as a viable solution for scenarios
involving posefree and sparse-view conditions. Project page:
instantsplat.github.io.