ChatPaper.aiChatPaper

InstantSplat: Representación Gaussiana de Dispersión sin Pose y con Vistas Escasas Ilimitadas en 40 Segundos

InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

March 29, 2024
Autores: Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang
cs.AI

Resumen

Si bien la síntesis de nuevas vistas (NVS, por sus siglas en inglés) ha logrado avances significativos en la visión por computadora 3D, generalmente requiere una estimación inicial de los parámetros intrínsecos y extrínsecos de la cámara a partir de puntos de vista densos. Este preprocesamiento suele realizarse mediante una canalización de Estructura a partir del Movimiento (SfM), un procedimiento que puede ser lento y poco confiable, especialmente en escenarios de vistas escasas con características coincidentes insuficientes para una reconstrucción precisa. En este trabajo, integramos las fortalezas de las representaciones basadas en puntos (por ejemplo, 3D Gaussian Splatting, 3D-GS) con modelos de estéreo denso de extremo a extremo (DUSt3R) para abordar los problemas complejos y aún no resueltos en NVS bajo configuraciones no restringidas, que incluyen desafíos de poses libres y vistas escasas. Nuestro marco, InstantSplat, unifica los priores de estéreo denso con 3D-GS para construir gaussianas 3D de escenas a gran escala a partir de imágenes de vistas escasas y sin poses en menos de 1 minuto. Específicamente, InstantSplat comprende un módulo de Inicialización Geométrica Gruesa (CGI) que establece rápidamente una estructura preliminar de la escena y los parámetros de la cámara en todas las vistas de entrenamiento, utilizando mapas de puntos 3D alineados globalmente derivados de una canalización de estéreo denso preentrenada. Esto es seguido por el módulo de Optimización Rápida de Gaussianas 3D (F-3DGO), que optimiza conjuntamente los atributos de las gaussianas 3D y las poses inicializadas con regularización de poses. Los experimentos realizados en los conjuntos de datos de exteriores a gran escala Tanks & Temples demuestran que InstantSplat mejora significativamente el SSIM (en un 32%) mientras reduce simultáneamente el Error Absoluto de Trayectoria (ATE) en un 80%. Esto establece a InstantSplat como una solución viable para escenarios que involucran condiciones de poses libres y vistas escasas. Página del proyecto: instantsplat.github.io.
English
While novel view synthesis (NVS) has made substantial progress in 3D computer vision, it typically requires an initial estimation of camera intrinsics and extrinsics from dense viewpoints. This pre-processing is usually conducted via a Structure-from-Motion (SfM) pipeline, a procedure that can be slow and unreliable, particularly in sparse-view scenarios with insufficient matched features for accurate reconstruction. In this work, we integrate the strengths of point-based representations (e.g., 3D Gaussian Splatting, 3D-GS) with end-to-end dense stereo models (DUSt3R) to tackle the complex yet unresolved issues in NVS under unconstrained settings, which encompasses pose-free and sparse view challenges. Our framework, InstantSplat, unifies dense stereo priors with 3D-GS to build 3D Gaussians of large-scale scenes from sparseview & pose-free images in less than 1 minute. Specifically, InstantSplat comprises a Coarse Geometric Initialization (CGI) module that swiftly establishes a preliminary scene structure and camera parameters across all training views, utilizing globally-aligned 3D point maps derived from a pre-trained dense stereo pipeline. This is followed by the Fast 3D-Gaussian Optimization (F-3DGO) module, which jointly optimizes the 3D Gaussian attributes and the initialized poses with pose regularization. Experiments conducted on the large-scale outdoor Tanks & Temples datasets demonstrate that InstantSplat significantly improves SSIM (by 32%) while concurrently reducing Absolute Trajectory Error (ATE) by 80%. These establish InstantSplat as a viable solution for scenarios involving posefree and sparse-view conditions. Project page: instantsplat.github.io.

Summary

AI-Generated Summary

PDF192November 26, 2024