ChatPaper.aiChatPaper

3D-Rekonstruktion mit räumlichem Gedächtnis

3D Reconstruction with Spatial Memory

August 28, 2024
papers.authors: Hengyi Wang, Lourdes Agapito
cs.AI

papers.abstract

Wir stellen Spann3R vor, einen neuartigen Ansatz zur dichten 3D-Rekonstruktion aus geordneten oder ungeordneten Bildsammlungen. Basierend auf dem DUSt3R-Paradigma verwendet Spann3R eine Transformer-basierte Architektur, um direkt Punktkarten aus Bildern zu regressieren, ohne jegliche Vorinformationen über die Szene oder Kameraparameter. Im Gegensatz zu DUSt3R, das Punktkarten pro Bildpaar vorhersagt, die jeweils in ihrem lokalen Koordinatensystem ausgedrückt werden, kann Spann3R Punktkarten pro Bild in einem globalen Koordinatensystem vorhersagen, wodurch die Notwendigkeit einer optimierungsbasierten globalen Ausrichtung entfällt. Die zentrale Idee von Spann3R besteht darin, ein externes räumliches Gedächtnis zu verwalten, das lernt, alle bisherigen relevanten 3D-Informationen zu verfolgen. Spann3R fragt dann dieses räumliche Gedächtnis ab, um die 3D-Struktur des nächsten Bildes in einem globalen Koordinatensystem vorherzusagen. Durch die Nutzung der vortrainierten Gewichte von DUSt3R und weiteres Feinabstimmen auf einer Teilmenge von Datensätzen zeigt Spann3R eine wettbewerbsfähige Leistung und Generalisierungsfähigkeit auf verschiedenen unbekannten Datensätzen und kann geordnete Bildsammlungen in Echtzeit verarbeiten. Projektseite: https://hengyiwang.github.io/projects/spanner
English
We present Spann3R, a novel approach for dense 3D reconstruction from ordered or unordered image collections. Built on the DUSt3R paradigm, Spann3R uses a transformer-based architecture to directly regress pointmaps from images without any prior knowledge of the scene or camera parameters. Unlike DUSt3R, which predicts per image-pair pointmaps each expressed in its local coordinate frame, Spann3R can predict per-image pointmaps expressed in a global coordinate system, thus eliminating the need for optimization-based global alignment. The key idea of Spann3R is to manage an external spatial memory that learns to keep track of all previous relevant 3D information. Spann3R then queries this spatial memory to predict the 3D structure of the next frame in a global coordinate system. Taking advantage of DUSt3R's pre-trained weights, and further fine-tuning on a subset of datasets, Spann3R shows competitive performance and generalization ability on various unseen datasets and can process ordered image collections in real time. Project page: https://hengyiwang.github.io/projects/spanner
PDF152November 14, 2024