ChatPaper.aiChatPaper

InstantSplat: Onbeperkte Sparse-view Pose-vrije Gaussian Splatting in 40 Seconden

InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

March 29, 2024
Auteurs: Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang
cs.AI

Samenvatting

Hoewel de synthese van nieuwe aanzichten (NVS) aanzienlijke vooruitgang heeft geboekt in 3D-computervisie, vereist het doorgaans een initiële schatting van camera-intrinsieken en -extrinsieken vanuit dichte gezichtspunten. Deze voorbewerking wordt meestal uitgevoerd via een Structure-from-Motion (SfM)-pijplijn, een procedure die traag en onbetrouwbaar kan zijn, vooral in scenario's met schaarse aanzichten waarbij onvoldoende overeenkomende kenmerken beschikbaar zijn voor een nauwkeurige reconstructie. In dit werk combineren we de sterke punten van puntgebaseerde representaties (bijv. 3D Gaussian Splatting, 3D-GS) met end-to-end dichte stereomodellen (DUSt3R) om de complexe maar nog onopgeloste problemen in NVS onder onbeperkte omstandigheden aan te pakken, waaronder uitdagingen zonder pose en met schaarse aanzichten. Ons framework, InstantSplat, verenigt dichte stereopriors met 3D-GS om 3D Gaussians van grootschalige scènes te bouwen vanuit schaarse aanzichten en pose-vrije afbeeldingen in minder dan 1 minuut. Specifiek bestaat InstantSplat uit een Coarse Geometric Initialization (CGI)-module die snel een voorlopige scènestructuur en cameraparameters vaststelt voor alle trainingsaanzichten, gebruikmakend van globaal uitgelijnde 3D-puntkaarten afgeleid van een vooraf getrainde dichte stereopijplijn. Dit wordt gevolgd door de Fast 3D-Gaussian Optimization (F-3DGO)-module, die gezamenlijk de 3D Gaussian-attributen en de geïnitialiseerde poses optimaliseert met pose-regularisatie. Experimenten uitgevoerd op de grootschalige outdoor Tanks & Temples-datasets tonen aan dat InstantSplat de SSIM aanzienlijk verbetert (met 32%) terwijl tegelijkertijd de Absolute Trajectory Error (ATE) met 80% wordt verminderd. Dit maakt InstantSplat tot een haalbare oplossing voor scenario's met pose-vrije en schaarse aanzichten. Projectpagina: instantsplat.github.io.
English
While novel view synthesis (NVS) has made substantial progress in 3D computer vision, it typically requires an initial estimation of camera intrinsics and extrinsics from dense viewpoints. This pre-processing is usually conducted via a Structure-from-Motion (SfM) pipeline, a procedure that can be slow and unreliable, particularly in sparse-view scenarios with insufficient matched features for accurate reconstruction. In this work, we integrate the strengths of point-based representations (e.g., 3D Gaussian Splatting, 3D-GS) with end-to-end dense stereo models (DUSt3R) to tackle the complex yet unresolved issues in NVS under unconstrained settings, which encompasses pose-free and sparse view challenges. Our framework, InstantSplat, unifies dense stereo priors with 3D-GS to build 3D Gaussians of large-scale scenes from sparseview & pose-free images in less than 1 minute. Specifically, InstantSplat comprises a Coarse Geometric Initialization (CGI) module that swiftly establishes a preliminary scene structure and camera parameters across all training views, utilizing globally-aligned 3D point maps derived from a pre-trained dense stereo pipeline. This is followed by the Fast 3D-Gaussian Optimization (F-3DGO) module, which jointly optimizes the 3D Gaussian attributes and the initialized poses with pose regularization. Experiments conducted on the large-scale outdoor Tanks & Temples datasets demonstrate that InstantSplat significantly improves SSIM (by 32%) while concurrently reducing Absolute Trajectory Error (ATE) by 80%. These establish InstantSplat as a viable solution for scenarios involving posefree and sparse-view conditions. Project page: instantsplat.github.io.
PDF192November 26, 2024