MegaLoc:単一の検索で全ての場所を特定
MegaLoc: One Retrieval to Place Them All
February 24, 2025
著者: Gabriele Berton, Carlo Masone
cs.AI
要旨
与えられたクエリと同じ場所から画像を取得することは、Visual Place Recognition、ランドマーク検索、Visual Localization、3D再構築、SLAMなど、複数のコンピュータビジョンタスクにおいて重要な要素です。しかし、既存のソリューションはこれらのタスクのいずれかに特化して構築されており、要件がわずかに変化したり、分布外データに遭遇したりすると失敗することが知られています。本論文では、既存の手法、トレーニング技術、データセットを組み合わせて、複数のタスクで高性能な検索モデル「MegaLoc」をトレーニングします。MegaLocは、(1)多数のVisual Place Recognitionデータセットで最先端の性能を達成し、(2)一般的なランドマーク検索データセットで印象的な結果を示し、(3)LaMARデータセットにおけるVisual Localizationで新たな最先端を確立しました。ここでは、既存のローカライゼーションパイプラインの検索方法のみを変更しました。MegaLocのコードはhttps://github.com/gmberton/MegaLocで公開されています。
English
Retrieving images from the same location as a given query is an important
component of multiple computer vision tasks, like Visual Place Recognition,
Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However,
existing solutions are built to specifically work for one of these tasks, and
are known to fail when the requirements slightly change or when they meet
out-of-distribution data. In this paper we combine a variety of existing
methods, training techniques, and datasets to train a retrieval model, called
MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1)
achieves state of the art on a large number of Visual Place Recognition
datasets, (2) impressive results on common Landmark Retrieval datasets, and (3)
sets a new state of the art for Visual Localization on the LaMAR datasets,
where we only changed the retrieval method to the existing localization
pipeline. The code for MegaLoc is available at
https://github.com/gmberton/MegaLocSummary
AI-Generated Summary