ChatPaper.aiChatPaper

InstantSplat: 40초 내 무제한 희소 시점 포즈 없는 가우시안 스플래팅

InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

March 29, 2024
저자: Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang
cs.AI

초록

새로운 시점 합성(Novel View Synthesis, NVS)은 3D 컴퓨터 비전 분야에서 상당한 진전을 이루었지만, 일반적으로 밀집한 시점에서 카메라 내부 및 외부 파라미터의 초기 추정이 필요합니다. 이러한 전처리는 일반적으로 Structure-from-Motion(SfM) 파이프라인을 통해 수행되며, 이 과정은 특히 매칭된 특징이 부족한 희소 시점(sparse-view) 시나리오에서 느리고 불안정할 수 있습니다. 본 연구에서는 점 기반 표현(예: 3D Gaussian Splatting, 3D-GS)과 종단 간(end-to-end) 밀집 스테레오 모델(DUSt3R)의 강점을 통합하여, 포즈가 없고(spose-free) 희소 시점 문제를 포함하는 제약 없는 환경에서의 NVS의 복잡하고 해결되지 않은 문제를 해결합니다. 우리의 프레임워크인 InstantSplat은 밀집 스테레오 사전 정보를 3D-GS와 통합하여 희소 시점 및 포즈가 없는 이미지로부터 대규모 장면의 3D 가우시안을 1분 이내에 구축합니다. 구체적으로, InstantSplat은 사전 훈련된 밀집 스테레오 파이프라인에서 도출된 전역적으로 정렬된 3D 점 지도를 활용하여 모든 훈련 시점에서 초기 장면 구조와 카메라 파라미터를 신속하게 설정하는 Coarse Geometric Initialization(CGI) 모듈을 포함합니다. 이어서, 3D 가우시안 속성과 초기화된 포즈를 포즈 정규화와 함께 공동으로 최적화하는 Fast 3D-Gaussian Optimization(F-3DGO) 모듈이 뒤따릅니다. 대규모 실외 데이터셋인 Tanks & Temples에서 수행된 실험 결과, InstantSplat은 SSIM을 32% 향상시키는 동시에 Absolute Trajectory Error(ATE)를 80% 감소시켰습니다. 이를 통해 InstantSplat은 포즈가 없고 희소 시점 조건을 포함하는 시나리오에서의 실행 가능한 솔루션으로 입증되었습니다. 프로젝트 페이지: instantsplat.github.io.
English
While novel view synthesis (NVS) has made substantial progress in 3D computer vision, it typically requires an initial estimation of camera intrinsics and extrinsics from dense viewpoints. This pre-processing is usually conducted via a Structure-from-Motion (SfM) pipeline, a procedure that can be slow and unreliable, particularly in sparse-view scenarios with insufficient matched features for accurate reconstruction. In this work, we integrate the strengths of point-based representations (e.g., 3D Gaussian Splatting, 3D-GS) with end-to-end dense stereo models (DUSt3R) to tackle the complex yet unresolved issues in NVS under unconstrained settings, which encompasses pose-free and sparse view challenges. Our framework, InstantSplat, unifies dense stereo priors with 3D-GS to build 3D Gaussians of large-scale scenes from sparseview & pose-free images in less than 1 minute. Specifically, InstantSplat comprises a Coarse Geometric Initialization (CGI) module that swiftly establishes a preliminary scene structure and camera parameters across all training views, utilizing globally-aligned 3D point maps derived from a pre-trained dense stereo pipeline. This is followed by the Fast 3D-Gaussian Optimization (F-3DGO) module, which jointly optimizes the 3D Gaussian attributes and the initialized poses with pose regularization. Experiments conducted on the large-scale outdoor Tanks & Temples datasets demonstrate that InstantSplat significantly improves SSIM (by 32%) while concurrently reducing Absolute Trajectory Error (ATE) by 80%. These establish InstantSplat as a viable solution for scenarios involving posefree and sparse-view conditions. Project page: instantsplat.github.io.

Summary

AI-Generated Summary

PDF192November 26, 2024