ChatPaper.aiChatPaper

공간 메모리를 활용한 3D 재구성

3D Reconstruction with Spatial Memory

August 28, 2024
저자: Hengyi Wang, Lourdes Agapito
cs.AI

초록

우리는 정렬된 또는 비정렬된 이미지 컬렉션으로부터 고밀도 3D 재구성을 위한 새로운 접근법인 Spann3R을 소개합니다. Spann3R은 DUSt3R 패러다임을 기반으로 하며, 트랜스포머 기반 아키텍처를 사용하여 장면이나 카메라 파라미터에 대한 사전 지식 없이도 이미지로부터 포인트맵을 직접 회귀합니다. DUSt3R이 각 이미지 쌍에 대해 로컬 좌표계로 표현된 포인트맵을 예측하는 것과 달리, Spann3R은 전역 좌표계로 표현된 이미지별 포인트맵을 예측할 수 있어, 최적화 기반의 전역 정렬이 필요 없습니다. Spann3R의 핵심 아이디어는 이전의 모든 관련 3D 정보를 추적하는 외부 공간 메모리를 관리하는 것입니다. Spann3R은 이 공간 메모리를 쿼리하여 다음 프레임의 3D 구조를 전역 좌표계로 예측합니다. DUSt3R의 사전 훈련된 가중치를 활용하고, 데이터셋의 일부에 대해 추가 미세 조정을 수행함으로써, Spann3R은 다양한 보이지 않는 데이터셋에서 경쟁력 있는 성능과 일반화 능력을 보여주며, 정렬된 이미지 컬렉션을 실시간으로 처리할 수 있습니다. 프로젝트 페이지: https://hengyiwang.github.io/projects/spanner
English
We present Spann3R, a novel approach for dense 3D reconstruction from ordered or unordered image collections. Built on the DUSt3R paradigm, Spann3R uses a transformer-based architecture to directly regress pointmaps from images without any prior knowledge of the scene or camera parameters. Unlike DUSt3R, which predicts per image-pair pointmaps each expressed in its local coordinate frame, Spann3R can predict per-image pointmaps expressed in a global coordinate system, thus eliminating the need for optimization-based global alignment. The key idea of Spann3R is to manage an external spatial memory that learns to keep track of all previous relevant 3D information. Spann3R then queries this spatial memory to predict the 3D structure of the next frame in a global coordinate system. Taking advantage of DUSt3R's pre-trained weights, and further fine-tuning on a subset of datasets, Spann3R shows competitive performance and generalization ability on various unseen datasets and can process ordered image collections in real time. Project page: https://hengyiwang.github.io/projects/spanner
PDF152November 14, 2024