InstantSplat: Onbeperkte Sparse-view Pose-vrije Gaussian Splatting in 40 Seconden
InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds
March 29, 2024
Auteurs: Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang
cs.AI
Samenvatting
Hoewel de synthese van nieuwe aanzichten (NVS) aanzienlijke vooruitgang heeft geboekt in 3D-computervisie, vereist het doorgaans een initiële schatting van camera-intrinsieken en -extrinsieken vanuit dichte gezichtspunten. Deze voorbewerking wordt meestal uitgevoerd via een Structure-from-Motion (SfM)-pijplijn, een procedure die traag en onbetrouwbaar kan zijn, vooral in scenario's met schaarse aanzichten waarbij onvoldoende overeenkomende kenmerken beschikbaar zijn voor een nauwkeurige reconstructie. In dit werk combineren we de sterke punten van puntgebaseerde representaties (bijv. 3D Gaussian Splatting, 3D-GS) met end-to-end dichte stereomodellen (DUSt3R) om de complexe maar nog onopgeloste problemen in NVS onder onbeperkte omstandigheden aan te pakken, waaronder uitdagingen zonder pose en met schaarse aanzichten. Ons framework, InstantSplat, verenigt dichte stereopriors met 3D-GS om 3D Gaussians van grootschalige scènes te bouwen vanuit schaarse aanzichten en pose-vrije afbeeldingen in minder dan 1 minuut. Specifiek bestaat InstantSplat uit een Coarse Geometric Initialization (CGI)-module die snel een voorlopige scènestructuur en cameraparameters vaststelt voor alle trainingsaanzichten, gebruikmakend van globaal uitgelijnde 3D-puntkaarten afgeleid van een vooraf getrainde dichte stereopijplijn. Dit wordt gevolgd door de Fast 3D-Gaussian Optimization (F-3DGO)-module, die gezamenlijk de 3D Gaussian-attributen en de geïnitialiseerde poses optimaliseert met pose-regularisatie. Experimenten uitgevoerd op de grootschalige outdoor Tanks & Temples-datasets tonen aan dat InstantSplat de SSIM aanzienlijk verbetert (met 32%) terwijl tegelijkertijd de Absolute Trajectory Error (ATE) met 80% wordt verminderd. Dit maakt InstantSplat tot een haalbare oplossing voor scenario's met pose-vrije en schaarse aanzichten. Projectpagina: instantsplat.github.io.
English
While novel view synthesis (NVS) has made substantial progress in 3D computer
vision, it typically requires an initial estimation of camera intrinsics and
extrinsics from dense viewpoints. This pre-processing is usually conducted via
a Structure-from-Motion (SfM) pipeline, a procedure that can be slow and
unreliable, particularly in sparse-view scenarios with insufficient matched
features for accurate reconstruction. In this work, we integrate the strengths
of point-based representations (e.g., 3D Gaussian Splatting, 3D-GS) with
end-to-end dense stereo models (DUSt3R) to tackle the complex yet unresolved
issues in NVS under unconstrained settings, which encompasses pose-free and
sparse view challenges. Our framework, InstantSplat, unifies dense stereo
priors with 3D-GS to build 3D Gaussians of large-scale scenes from sparseview &
pose-free images in less than 1 minute. Specifically, InstantSplat comprises a
Coarse Geometric Initialization (CGI) module that swiftly establishes a
preliminary scene structure and camera parameters across all training views,
utilizing globally-aligned 3D point maps derived from a pre-trained dense
stereo pipeline. This is followed by the Fast 3D-Gaussian Optimization (F-3DGO)
module, which jointly optimizes the 3D Gaussian attributes and the initialized
poses with pose regularization. Experiments conducted on the large-scale
outdoor Tanks & Temples datasets demonstrate that InstantSplat significantly
improves SSIM (by 32%) while concurrently reducing Absolute Trajectory Error
(ATE) by 80%. These establish InstantSplat as a viable solution for scenarios
involving posefree and sparse-view conditions. Project page:
instantsplat.github.io.