ChatPaper.aiChatPaper

Ricostruzione 3D con Memoria Spaziale

3D Reconstruction with Spatial Memory

August 28, 2024
Autori: Hengyi Wang, Lourdes Agapito
cs.AI

Abstract

Presentiamo Spann3R, un nuovo approccio per la ricostruzione 3D densa a partire da collezioni di immagini ordinate o non ordinate. Basato sul paradigma DUSt3R, Spann3R utilizza un'architettura di tipo transformer per regredire direttamente le mappe di punti dalle immagini, senza alcuna conoscenza a priori della scena o dei parametri della telecamera. A differenza di DUSt3R, che predice mappe di punti per ogni coppia di immagini, ciascuna espressa nel proprio sistema di coordinate locale, Spann3R è in grado di prevedere mappe di punti per singola immagine espresse in un sistema di coordinate globale, eliminando così la necessità di un allineamento globale basato su ottimizzazione. L'idea chiave di Spann3R è gestire una memoria spaziale esterna che impara a tenere traccia di tutte le precedenti informazioni 3D rilevanti. Spann3R interroga quindi questa memoria spaziale per prevedere la struttura 3D del frame successivo in un sistema di coordinate globale. Sfruttando i pesi pre-addestrati di DUSt3R e un ulteriore affinamento su un sottoinsieme di dataset, Spann3R dimostra prestazioni competitive e una buona capacità di generalizzazione su vari dataset non visti e può elaborare collezioni di immagini ordinate in tempo reale. Pagina del progetto: https://hengyiwang.github.io/projects/spanner
English
We present Spann3R, a novel approach for dense 3D reconstruction from ordered or unordered image collections. Built on the DUSt3R paradigm, Spann3R uses a transformer-based architecture to directly regress pointmaps from images without any prior knowledge of the scene or camera parameters. Unlike DUSt3R, which predicts per image-pair pointmaps each expressed in its local coordinate frame, Spann3R can predict per-image pointmaps expressed in a global coordinate system, thus eliminating the need for optimization-based global alignment. The key idea of Spann3R is to manage an external spatial memory that learns to keep track of all previous relevant 3D information. Spann3R then queries this spatial memory to predict the 3D structure of the next frame in a global coordinate system. Taking advantage of DUSt3R's pre-trained weights, and further fine-tuning on a subset of datasets, Spann3R shows competitive performance and generalization ability on various unseen datasets and can process ordered image collections in real time. Project page: https://hengyiwang.github.io/projects/spanner
PDF152November 14, 2024