ChatPaper.aiChatPaper

Reconstrução 3D com Memória Espacial

3D Reconstruction with Spatial Memory

August 28, 2024
Autores: Hengyi Wang, Lourdes Agapito
cs.AI

Resumo

Apresentamos o Spann3R, uma nova abordagem para reconstrução 3D densa a partir de coleções de imagens ordenadas ou não ordenadas. Baseado no paradigma DUSt3R, o Spann3R utiliza uma arquitetura baseada em *transformers* para regredir diretamente mapas de pontos a partir de imagens, sem qualquer conhecimento prévio da cena ou parâmetros da câmara. Ao contrário do DUSt3R, que prevê mapas de pontos por par de imagens, cada um expresso no seu próprio referencial local, o Spann3R pode prever mapas de pontos por imagem expressos num sistema de coordenadas global, eliminando assim a necessidade de um alinhamento global baseado em otimização. A ideia-chave do Spann3R é gerir uma memória espacial externa que aprende a manter o registo de toda a informação 3D relevante anterior. O Spann3R consulta então esta memória espacial para prever a estrutura 3D do *frame* seguinte num sistema de coordenadas global. Aproveitando os pesos pré-treinados do DUSt3R e um *fine-tuning* adicional num subconjunto de conjuntos de dados, o Spann3R demonstra um desempenho competitivo e capacidade de generalização em vários conjuntos de dados não vistos, podendo processar coleções de imagens ordenadas em tempo real. Página do projeto: https://hengyiwang.github.io/projects/spanner
English
We present Spann3R, a novel approach for dense 3D reconstruction from ordered or unordered image collections. Built on the DUSt3R paradigm, Spann3R uses a transformer-based architecture to directly regress pointmaps from images without any prior knowledge of the scene or camera parameters. Unlike DUSt3R, which predicts per image-pair pointmaps each expressed in its local coordinate frame, Spann3R can predict per-image pointmaps expressed in a global coordinate system, thus eliminating the need for optimization-based global alignment. The key idea of Spann3R is to manage an external spatial memory that learns to keep track of all previous relevant 3D information. Spann3R then queries this spatial memory to predict the 3D structure of the next frame in a global coordinate system. Taking advantage of DUSt3R's pre-trained weights, and further fine-tuning on a subset of datasets, Spann3R shows competitive performance and generalization ability on various unseen datasets and can process ordered image collections in real time. Project page: https://hengyiwang.github.io/projects/spanner
PDF152November 14, 2024