FreeSplatter: Безусловное гауссовское наложение для разреженного 3D восстановления.
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction
December 12, 2024
Авторы: Jiale Xu, Shenghua Gao, Ying Shan
cs.AI
Аннотация
Существующие модели восстановления с разреженным видом тяжело полагаются на точные известные позы камеры. Однако получение внешних и внутренних параметров камеры из изображений с разреженным видом представляет существенные трудности. В данной работе мы представляем FreeSplatter - высокомасштабную, прямолинейную структуру восстановления, способную генерировать высококачественные трехмерные гауссовы модели из некалиброванных изображений с разреженным видом и восстанавливать их параметры камеры всего за несколько секунд. FreeSplatter построен на упрощенной архитектуре трансформера, включающей последовательные блоки самовнимания, которые облегчают обмен информацией между токенами многовидовых изображений и декодируют их в пиксельно-мудрые трехмерные гауссовы примитивы. Предсказанные гауссовы примитивы находятся в унифицированной опорной системе, что позволяет получить трехмерное моделирование высокой точности и мгновенную оценку параметров камеры с использованием готовых решателей. Для удовлетворения как объектно-центричного, так и сценового восстановления мы обучаем две варианты модели FreeSplatter на обширных наборах данных. В обоих сценариях FreeSplatter превосходит современные базовые линии по качеству восстановления и точности оценки позы. Кроме того, мы демонстрируем потенциал FreeSplatter в увеличении производительности последующих приложений, таких как создание трехмерного контента из текста/изображения.
English
Existing sparse-view reconstruction models heavily rely on accurate known
camera poses. However, deriving camera extrinsics and intrinsics from
sparse-view images presents significant challenges. In this work, we present
FreeSplatter, a highly scalable, feed-forward reconstruction framework capable
of generating high-quality 3D Gaussians from uncalibrated sparse-view images
and recovering their camera parameters in mere seconds. FreeSplatter is built
upon a streamlined transformer architecture, comprising sequential
self-attention blocks that facilitate information exchange among multi-view
image tokens and decode them into pixel-wise 3D Gaussian primitives. The
predicted Gaussian primitives are situated in a unified reference frame,
allowing for high-fidelity 3D modeling and instant camera parameter estimation
using off-the-shelf solvers. To cater to both object-centric and scene-level
reconstruction, we train two model variants of FreeSplatter on extensive
datasets. In both scenarios, FreeSplatter outperforms state-of-the-art
baselines in terms of reconstruction quality and pose estimation accuracy.
Furthermore, we showcase FreeSplatter's potential in enhancing the productivity
of downstream applications, such as text/image-to-3D content creation.Summary
AI-Generated Summary