InstantSplat: Неограниченное разреженное проецирование гауссовых капель без учета позы за 40 секунд.
InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds
March 29, 2024
Авторы: Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang
cs.AI
Аннотация
Хотя синтез нового вида (NVS) достиг значительного прогресса в 3D компьютерном зрении, обычно требуется начальная оценка камерной интринсики и экстринсики из плотных точек зрения. Эта предварительная обработка обычно выполняется с помощью конвейера структуры из движения (SfM), процедуры, которая может быть медленной и ненадежной, особенно в сценариях с разреженными видами, где недостаточно сопоставленных особенностей для точной реконструкции. В данной работе мы интегрируем преимущества точечных представлений (например, 3D Гауссово распыление, 3D-GS) с плотными моделями стерео (DUSt3R) для решения сложных и нерешенных проблем в NVS в неограниченных условиях, которые охватывают вызовы без позы и разреженных видов. Наша структура, InstantSplat, объединяет плотные стерео априори с 3D-GS для создания 3D гауссовских моделей крупномасштабных сцен из разреженных и без позы изображений менее чем за 1 минуту. Конкретно, InstantSplat включает модуль Грубой Геометрической Инициализации (CGI), который быстро устанавливает предварительную структуру сцены и параметры камеры для всех обучающих видов, используя глобально выровненные 3D точечные карты, полученные из предварительно обученного плотного стерео конвейера. Затем следует модуль Быстрой 3D-Гауссовской Оптимизации (F-3DGO), который совместно оптимизирует атрибуты 3D Гаусса и инициализированные позы с регуляризацией позы. Эксперименты, проведенные на крупномасштабных наборах данных Tanks & Temples, показывают, что InstantSplat значительно улучшает SSIM (на 32%), одновременно уменьшая Абсолютную Траекторную Ошибку (ATE) на 80%. Это подтверждает InstantSplat как жизнеспособное решение для сценариев, включающих условия без позы и разреженных видов. Страница проекта: instantsplat.github.io.
English
While novel view synthesis (NVS) has made substantial progress in 3D computer
vision, it typically requires an initial estimation of camera intrinsics and
extrinsics from dense viewpoints. This pre-processing is usually conducted via
a Structure-from-Motion (SfM) pipeline, a procedure that can be slow and
unreliable, particularly in sparse-view scenarios with insufficient matched
features for accurate reconstruction. In this work, we integrate the strengths
of point-based representations (e.g., 3D Gaussian Splatting, 3D-GS) with
end-to-end dense stereo models (DUSt3R) to tackle the complex yet unresolved
issues in NVS under unconstrained settings, which encompasses pose-free and
sparse view challenges. Our framework, InstantSplat, unifies dense stereo
priors with 3D-GS to build 3D Gaussians of large-scale scenes from sparseview &
pose-free images in less than 1 minute. Specifically, InstantSplat comprises a
Coarse Geometric Initialization (CGI) module that swiftly establishes a
preliminary scene structure and camera parameters across all training views,
utilizing globally-aligned 3D point maps derived from a pre-trained dense
stereo pipeline. This is followed by the Fast 3D-Gaussian Optimization (F-3DGO)
module, which jointly optimizes the 3D Gaussian attributes and the initialized
poses with pose regularization. Experiments conducted on the large-scale
outdoor Tanks & Temples datasets demonstrate that InstantSplat significantly
improves SSIM (by 32%) while concurrently reducing Absolute Trajectory Error
(ATE) by 80%. These establish InstantSplat as a viable solution for scenarios
involving posefree and sparse-view conditions. Project page:
instantsplat.github.io.Summary
AI-Generated Summary