3D-реконструкция с использованием пространственной памяти
3D Reconstruction with Spatial Memory
August 28, 2024
Авторы: Hengyi Wang, Lourdes Agapito
cs.AI
Аннотация
Мы представляем Spann3R — новый подход для плотного 3D-реконструирования из упорядоченных или неупорядоченных коллекций изображений. Основанный на парадигме DUSt3R, Spann3R использует архитектуру на основе трансформеров для прямого регрессирования карт точек из изображений без какого-либо предварительного знания о сцене или параметрах камеры. В отличие от DUSt3R, который предсказывает карты точек для каждой пары изображений, выраженные в их локальной системе координат, Spann3R способен предсказывать карты точек для каждого изображения, выраженные в глобальной системе координат, что устраняет необходимость оптимизационного глобального выравнивания. Ключевая идея Spann3R заключается в управлении внешней пространственной памятью, которая обучается отслеживать всю предыдущую релевантную 3D-информацию. Затем Spann3R запрашивает эту пространственную память для предсказания 3D-структуры следующего кадра в глобальной системе координат. Используя предварительно обученные веса DUSt3R и дополнительную тонкую настройку на подмножестве наборов данных, Spann3R демонстрирует конкурентоспособную производительность и способность к обобщению на различных неизвестных наборах данных, а также может обрабатывать упорядоченные коллекции изображений в реальном времени. Страница проекта: https://hengyiwang.github.io/projects/spanner.
English
We present Spann3R, a novel approach for dense 3D reconstruction from ordered
or unordered image collections. Built on the DUSt3R paradigm, Spann3R uses a
transformer-based architecture to directly regress pointmaps from images
without any prior knowledge of the scene or camera parameters. Unlike DUSt3R,
which predicts per image-pair pointmaps each expressed in its local coordinate
frame, Spann3R can predict per-image pointmaps expressed in a global coordinate
system, thus eliminating the need for optimization-based global alignment. The
key idea of Spann3R is to manage an external spatial memory that learns to keep
track of all previous relevant 3D information. Spann3R then queries this
spatial memory to predict the 3D structure of the next frame in a global
coordinate system. Taking advantage of DUSt3R's pre-trained weights, and
further fine-tuning on a subset of datasets, Spann3R shows competitive
performance and generalization ability on various unseen datasets and can
process ordered image collections in real time. Project page:
https://hengyiwang.github.io/projects/spanner