InstantSplat: Gaussian Splatting Illimitato con Viste Sparse e Senza Posa in 40 Secondi
InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds
March 29, 2024
Autori: Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang
cs.AI
Abstract
Mentre la sintesi di nuove viste (NVS) ha compiuto progressi significativi nella visione artificiale 3D, richiede tipicamente una stima iniziale dei parametri intrinseci ed estrinseci della fotocamera da punti di vista densi. Questo pre-processing viene solitamente condotto tramite una pipeline Structure-from-Motion (SfM), una procedura che può essere lenta e inaffidabile, specialmente in scenari con viste sparse in cui le caratteristiche corrispondenti sono insufficienti per una ricostruzione accurata. In questo lavoro, integriamo i punti di forza delle rappresentazioni basate su punti (ad esempio, 3D Gaussian Splatting, 3D-GS) con modelli di stereo denso end-to-end (DUSt3R) per affrontare le complesse ma irrisolte problematiche della NVS in contesti non vincolati, che includono sfide legate all'assenza di pose e alle viste sparse. Il nostro framework, InstantSplat, unisce i priori di stereo denso con il 3D-GS per costruire Gaussiane 3D di scene su larga scala a partire da immagini sparse e senza pose in meno di 1 minuto. Nello specifico, InstantSplat comprende un modulo di Inizializzazione Geometrica Approssimativa (CGI) che stabilisce rapidamente una struttura preliminare della scena e i parametri della fotocamera per tutte le viste di addestramento, utilizzando mappe di punti 3D allineate globalmente derivate da una pipeline di stereo denso pre-addestrata. Questo è seguito dal modulo di Ottimizzazione Rapida delle Gaussiane 3D (F-3DGO), che ottimizza congiuntamente gli attributi delle Gaussiane 3D e le pose inizializzate con regolarizzazione delle pose. Gli esperimenti condotti sui dataset su larga scala Tanks & Temples dimostrano che InstantSplat migliora significativamente l'SSIM (del 32%) riducendo contemporaneamente l'Errore Assoluto della Traiettoria (ATE) dell'80%. Questi risultati stabiliscono InstantSplat come una soluzione valida per scenari che coinvolgono condizioni senza pose e con viste sparse. Pagina del progetto: instantsplat.github.io.
English
While novel view synthesis (NVS) has made substantial progress in 3D computer
vision, it typically requires an initial estimation of camera intrinsics and
extrinsics from dense viewpoints. This pre-processing is usually conducted via
a Structure-from-Motion (SfM) pipeline, a procedure that can be slow and
unreliable, particularly in sparse-view scenarios with insufficient matched
features for accurate reconstruction. In this work, we integrate the strengths
of point-based representations (e.g., 3D Gaussian Splatting, 3D-GS) with
end-to-end dense stereo models (DUSt3R) to tackle the complex yet unresolved
issues in NVS under unconstrained settings, which encompasses pose-free and
sparse view challenges. Our framework, InstantSplat, unifies dense stereo
priors with 3D-GS to build 3D Gaussians of large-scale scenes from sparseview &
pose-free images in less than 1 minute. Specifically, InstantSplat comprises a
Coarse Geometric Initialization (CGI) module that swiftly establishes a
preliminary scene structure and camera parameters across all training views,
utilizing globally-aligned 3D point maps derived from a pre-trained dense
stereo pipeline. This is followed by the Fast 3D-Gaussian Optimization (F-3DGO)
module, which jointly optimizes the 3D Gaussian attributes and the initialized
poses with pose regularization. Experiments conducted on the large-scale
outdoor Tanks & Temples datasets demonstrate that InstantSplat significantly
improves SSIM (by 32%) while concurrently reducing Absolute Trajectory Error
(ATE) by 80%. These establish InstantSplat as a viable solution for scenarios
involving posefree and sparse-view conditions. Project page:
instantsplat.github.io.