ChatPaper.aiChatPaper

Reconstruction 3D avec mémoire spatiale

3D Reconstruction with Spatial Memory

August 28, 2024
papers.authors: Hengyi Wang, Lourdes Agapito
cs.AI

papers.abstract

Nous présentons Spann3R, une nouvelle approche pour la reconstruction 3D dense à partir de collections d'images ordonnées ou non ordonnées. Construit sur le paradigme de DUSt3R, Spann3R utilise une architecture basée sur des transformers pour régresser directement des cartes de points à partir des images, sans aucune connaissance préalable de la scène ou des paramètres de la caméra. Contrairement à DUSt3R, qui prédit des cartes de points par paire d'images, chacune exprimée dans son propre repère local, Spann3R peut prédire des cartes de points par image exprimées dans un système de coordonnées global, éliminant ainsi le besoin d'un alignement global par optimisation. L'idée clé de Spann3R est de gérer une mémoire spatiale externe qui apprend à garder une trace de toutes les informations 3D pertinentes précédentes. Spann3R interroge ensuite cette mémoire spatiale pour prédire la structure 3D de l'image suivante dans un système de coordonnées global. En tirant parti des poids pré-entraînés de DUSt3R et en effectuant un affinage supplémentaire sur un sous-ensemble de jeux de données, Spann3R démontre des performances compétitives et une capacité de généralisation sur divers jeux de données non vus, et peut traiter des collections d'images ordonnées en temps réel. Page du projet : https://hengyiwang.github.io/projects/spanner
English
We present Spann3R, a novel approach for dense 3D reconstruction from ordered or unordered image collections. Built on the DUSt3R paradigm, Spann3R uses a transformer-based architecture to directly regress pointmaps from images without any prior knowledge of the scene or camera parameters. Unlike DUSt3R, which predicts per image-pair pointmaps each expressed in its local coordinate frame, Spann3R can predict per-image pointmaps expressed in a global coordinate system, thus eliminating the need for optimization-based global alignment. The key idea of Spann3R is to manage an external spatial memory that learns to keep track of all previous relevant 3D information. Spann3R then queries this spatial memory to predict the 3D structure of the next frame in a global coordinate system. Taking advantage of DUSt3R's pre-trained weights, and further fine-tuning on a subset of datasets, Spann3R shows competitive performance and generalization ability on various unseen datasets and can process ordered image collections in real time. Project page: https://hengyiwang.github.io/projects/spanner
PDF152November 14, 2024