ChatPaper.aiChatPaper

空間メモリを用いた3D再構築

3D Reconstruction with Spatial Memory

August 28, 2024
著者: Hengyi Wang, Lourdes Agapito
cs.AI

要旨

本論文では、順序付きまたは順序なしの画像コレクションから高密度な3D再構成を行う新しいアプローチであるSpann3Rを紹介します。Spann3RはDUSt3Rパラダイムを基盤として構築され、トランスフォーマーベースのアーキテクチャを使用して、シーンの事前知識やカメラパラメータなしに画像から直接ポイントマップを回帰します。DUSt3Rが各画像ペアのポイントマップをローカル座標系で予測するのに対し、Spann3Rはグローバル座標系で表現された各画像のポイントマップを予測できるため、最適化ベースのグローバルアライメントが不要となります。Spann3Rの鍵となるアイデアは、これまでの関連する3D情報を追跡するための外部空間メモリを管理することです。Spann3Rはこの空間メモリをクエリし、次のフレームの3D構造をグローバル座標系で予測します。DUSt3Rの事前学習済みの重みを活用し、データセットのサブセットでさらに微調整を行うことで、Spann3Rはさまざまな未見のデータセットにおいて競争力のある性能と汎化能力を示し、順序付き画像コレクションをリアルタイムで処理できます。プロジェクトページ: https://hengyiwang.github.io/projects/spanner
English
We present Spann3R, a novel approach for dense 3D reconstruction from ordered or unordered image collections. Built on the DUSt3R paradigm, Spann3R uses a transformer-based architecture to directly regress pointmaps from images without any prior knowledge of the scene or camera parameters. Unlike DUSt3R, which predicts per image-pair pointmaps each expressed in its local coordinate frame, Spann3R can predict per-image pointmaps expressed in a global coordinate system, thus eliminating the need for optimization-based global alignment. The key idea of Spann3R is to manage an external spatial memory that learns to keep track of all previous relevant 3D information. Spann3R then queries this spatial memory to predict the 3D structure of the next frame in a global coordinate system. Taking advantage of DUSt3R's pre-trained weights, and further fine-tuning on a subset of datasets, Spann3R shows competitive performance and generalization ability on various unseen datasets and can process ordered image collections in real time. Project page: https://hengyiwang.github.io/projects/spanner
PDF152November 14, 2024