3D-reconstructie met ruimtelijk geheugen
3D Reconstruction with Spatial Memory
August 28, 2024
Auteurs: Hengyi Wang, Lourdes Agapito
cs.AI
Samenvatting
Wij presenteren Spann3R, een nieuwe aanpak voor dichte 3D-reconstructie uit geordende of ongeordende beeldverzamelingen. Gebaseerd op het DUSt3R-paradigma, gebruikt Spann3R een op transformers gebaseerde architectuur om direct puntenkaarten uit beelden te regresseren, zonder enige voorkennis van de scène of cameraparameters. In tegenstelling tot DUSt3R, dat per beeldpaar puntenkaarten voorspelt die elk in hun eigen lokale coördinatenstelsel zijn uitgedrukt, kan Spann3R per beeld puntenkaarten voorspellen die in een globaal coördinatenstelsel zijn uitgedrukt, waardoor de noodzaak voor optimalisatiegebaseerde globale alignering wordt geëlimineerd. Het kernidee van Spann3R is het beheren van een extern ruimtelijk geheugen dat leert om alle relevante voorgaande 3D-informatie bij te houden. Spann3R bevraagt vervolgens dit ruimtelijk geheugen om de 3D-structuur van het volgende frame in een globaal coördinatenstelsel te voorspellen. Door gebruik te maken van de vooraf getrainde gewichten van DUSt3R en verder te fine-tunen op een subset van datasets, toont Spann3R competitieve prestaties en generalisatievermogen op verschillende onbekende datasets en kan het geordende beeldverzamelingen in realtime verwerken. Projectpagina: https://hengyiwang.github.io/projects/spanner
English
We present Spann3R, a novel approach for dense 3D reconstruction from ordered
or unordered image collections. Built on the DUSt3R paradigm, Spann3R uses a
transformer-based architecture to directly regress pointmaps from images
without any prior knowledge of the scene or camera parameters. Unlike DUSt3R,
which predicts per image-pair pointmaps each expressed in its local coordinate
frame, Spann3R can predict per-image pointmaps expressed in a global coordinate
system, thus eliminating the need for optimization-based global alignment. The
key idea of Spann3R is to manage an external spatial memory that learns to keep
track of all previous relevant 3D information. Spann3R then queries this
spatial memory to predict the 3D structure of the next frame in a global
coordinate system. Taking advantage of DUSt3R's pre-trained weights, and
further fine-tuning on a subset of datasets, Spann3R shows competitive
performance and generalization ability on various unseen datasets and can
process ordered image collections in real time. Project page:
https://hengyiwang.github.io/projects/spanner