Reconstrucción 3D con Memoria Espacial
3D Reconstruction with Spatial Memory
August 28, 2024
Autores: Hengyi Wang, Lourdes Agapito
cs.AI
Resumen
Presentamos Spann3R, un enfoque novedoso para la reconstrucción densa en 3D a partir de colecciones de imágenes ordenadas o desordenadas. Basado en el paradigma DUSt3R, Spann3R utiliza una arquitectura basada en transformadores para regresar directamente mapas de puntos a partir de imágenes sin ningún conocimiento previo de la escena o los parámetros de la cámara. A diferencia de DUSt3R, que predice mapas de puntos por par de imágenes, cada uno expresado en su propio sistema de coordenadas local, Spann3R puede predecir mapas de puntos por imagen expresados en un sistema de coordenadas global, eliminando así la necesidad de una alineación global basada en optimización. La idea clave de Spann3R es gestionar una memoria espacial externa que aprende a mantener un registro de toda la información 3D relevante previa. Spann3R luego consulta esta memoria espacial para predecir la estructura 3D del siguiente fotograma en un sistema de coordenadas global. Aprovechando los pesos preentrenados de DUSt3R y un ajuste fino adicional en un subconjunto de conjuntos de datos, Spann3R muestra un rendimiento competitivo y una capacidad de generalización en varios conjuntos de datos no vistos, y puede procesar colecciones de imágenes ordenadas en tiempo real. Página del proyecto: https://hengyiwang.github.io/projects/spanner.
English
We present Spann3R, a novel approach for dense 3D reconstruction from ordered
or unordered image collections. Built on the DUSt3R paradigm, Spann3R uses a
transformer-based architecture to directly regress pointmaps from images
without any prior knowledge of the scene or camera parameters. Unlike DUSt3R,
which predicts per image-pair pointmaps each expressed in its local coordinate
frame, Spann3R can predict per-image pointmaps expressed in a global coordinate
system, thus eliminating the need for optimization-based global alignment. The
key idea of Spann3R is to manage an external spatial memory that learns to keep
track of all previous relevant 3D information. Spann3R then queries this
spatial memory to predict the 3D structure of the next frame in a global
coordinate system. Taking advantage of DUSt3R's pre-trained weights, and
further fine-tuning on a subset of datasets, Spann3R shows competitive
performance and generalization ability on various unseen datasets and can
process ordered image collections in real time. Project page:
https://hengyiwang.github.io/projects/spanner