MegaLoc: Uma Recuperação para Posicionar Todos
MegaLoc: One Retrieval to Place Them All
February 24, 2025
Autores: Gabriele Berton, Carlo Masone
cs.AI
Resumo
Recuperar imagens do mesmo local de uma consulta dada é um componente importante de várias tarefas de visão computacional, como Reconhecimento Visual de Locais, Recuperação de Pontos de Referência, Localização Visual, reconstrução 3D e SLAM. No entanto, as soluções existentes são construídas para funcionar especificamente em uma dessas tarefas e são conhecidas por falhar quando os requisitos mudam ligeiramente ou quando encontram dados fora da distribuição. Neste artigo, combinamos uma variedade de métodos existentes, técnicas de treinamento e conjuntos de dados para treinar um modelo de recuperação, chamado MegaLoc, que é eficaz em múltiplas tarefas. Descobrimos que o MegaLoc (1) alcança o estado da arte em um grande número de conjuntos de dados de Reconhecimento Visual de Locais, (2) obtém resultados impressionantes em conjuntos de dados comuns de Recuperação de Pontos de Referência e (3) estabelece um novo estado da arte para Localização Visual nos conjuntos de dados LaMAR, onde apenas alteramos o método de recuperação no pipeline de localização existente. O código do MegaLoc está disponível em https://github.com/gmberton/MegaLoc.
English
Retrieving images from the same location as a given query is an important
component of multiple computer vision tasks, like Visual Place Recognition,
Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However,
existing solutions are built to specifically work for one of these tasks, and
are known to fail when the requirements slightly change or when they meet
out-of-distribution data. In this paper we combine a variety of existing
methods, training techniques, and datasets to train a retrieval model, called
MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1)
achieves state of the art on a large number of Visual Place Recognition
datasets, (2) impressive results on common Landmark Retrieval datasets, and (3)
sets a new state of the art for Visual Localization on the LaMAR datasets,
where we only changed the retrieval method to the existing localization
pipeline. The code for MegaLoc is available at
https://github.com/gmberton/MegaLocSummary
AI-Generated Summary