ChatPaper.aiChatPaper

InstantSplat: Unbegrenztes Sparse-View Pose-freies Gauss-Splatting in 40 Sekunden

InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

March 29, 2024
Autoren: Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang
cs.AI

Zusammenfassung

Obwohl die neuartige Ansichtssynthese (NVS) in der 3D-Computer vision erhebliche Fortschritte gemacht hat, erfordert sie in der Regel eine anfängliche Schätzung der Kamera-Intrinsik und -Extrinsik aus dichten Blickwinkeln. Diese Vorverarbeitung wird in der Regel über eine Struktur-aus-Bewegung (SfM) Pipeline durchgeführt, ein Verfahren, das insbesondere in Szenarien mit spärlichen Ansichten und unzureichend übereinstimmenden Merkmalen für eine genaue Rekonstruktion langsam und unzuverlässig sein kann. In dieser Arbeit integrieren wir die Stärken punktbasierter Darstellungen (z. B. 3D-Gauß-Splatting, 3D-GS) mit end-to-end dichten Stereo-Modellen (DUSt3R), um die komplexen und noch ungelösten Probleme in der NVS unter unbeschränkten Einstellungen anzugehen, die pose-freie und spärliche Ansichts-Herausforderungen umfassen. Unser Rahmenwerk, InstantSplat, vereint dichte Stereo-Prioritäten mit 3D-GS, um 3D-Gaußscheiben von großflächigen Szenen aus spärlichen und pose-freien Bildern in weniger als 1 Minute zu erstellen. Insbesondere besteht InstantSplat aus einem Modul für grobe geometrische Initialisierung (CGI), das schnell eine vorläufige Szenenstruktur und Kameraparameter über alle Trainingsansichten hinweg festlegt, indem global ausgerichtete 3D-Punktkarten aus einer vorab trainierten dichten Stereo-Pipeline abgeleitet werden. Dies wird durch das Modul für schnelle 3D-Gauß-Optimierung (F-3DGO) fortgesetzt, das die 3D-Gauß-Merkmale und die initialisierten Posen gemeinsam mit Posenregularisierung optimiert. Experimente, die an den großflächigen Außengelände-Tanks & Tempel-Datensätzen durchgeführt wurden, zeigen, dass InstantSplat die SSIM signifikant verbessert (um 32%), während gleichzeitig der absolute Bahnfehler (ATE) um 80% reduziert wird. Diese Ergebnisse etablieren InstantSplat als eine praktikable Lösung für Szenarien mit posefreien und spärlichen Ansichtsbedingungen. Projektpage: instantsplat.github.io.
English
While novel view synthesis (NVS) has made substantial progress in 3D computer vision, it typically requires an initial estimation of camera intrinsics and extrinsics from dense viewpoints. This pre-processing is usually conducted via a Structure-from-Motion (SfM) pipeline, a procedure that can be slow and unreliable, particularly in sparse-view scenarios with insufficient matched features for accurate reconstruction. In this work, we integrate the strengths of point-based representations (e.g., 3D Gaussian Splatting, 3D-GS) with end-to-end dense stereo models (DUSt3R) to tackle the complex yet unresolved issues in NVS under unconstrained settings, which encompasses pose-free and sparse view challenges. Our framework, InstantSplat, unifies dense stereo priors with 3D-GS to build 3D Gaussians of large-scale scenes from sparseview & pose-free images in less than 1 minute. Specifically, InstantSplat comprises a Coarse Geometric Initialization (CGI) module that swiftly establishes a preliminary scene structure and camera parameters across all training views, utilizing globally-aligned 3D point maps derived from a pre-trained dense stereo pipeline. This is followed by the Fast 3D-Gaussian Optimization (F-3DGO) module, which jointly optimizes the 3D Gaussian attributes and the initialized poses with pose regularization. Experiments conducted on the large-scale outdoor Tanks & Temples datasets demonstrate that InstantSplat significantly improves SSIM (by 32%) while concurrently reducing Absolute Trajectory Error (ATE) by 80%. These establish InstantSplat as a viable solution for scenarios involving posefree and sparse-view conditions. Project page: instantsplat.github.io.

Summary

AI-Generated Summary

PDF192November 26, 2024