ChatPaper.aiChatPaper

MegaLoc: Uma Recuperação para Posicionar Todos

MegaLoc: One Retrieval to Place Them All

February 24, 2025
Autores: Gabriele Berton, Carlo Masone
cs.AI

Resumo

Recuperar imagens do mesmo local de uma consulta dada é um componente importante de várias tarefas de visão computacional, como Reconhecimento Visual de Locais, Recuperação de Pontos de Referência, Localização Visual, reconstrução 3D e SLAM. No entanto, as soluções existentes são construídas para funcionar especificamente em uma dessas tarefas e são conhecidas por falhar quando os requisitos mudam ligeiramente ou quando encontram dados fora da distribuição. Neste artigo, combinamos uma variedade de métodos existentes, técnicas de treinamento e conjuntos de dados para treinar um modelo de recuperação, chamado MegaLoc, que é eficaz em múltiplas tarefas. Descobrimos que o MegaLoc (1) alcança o estado da arte em um grande número de conjuntos de dados de Reconhecimento Visual de Locais, (2) obtém resultados impressionantes em conjuntos de dados comuns de Recuperação de Pontos de Referência e (3) estabelece um novo estado da arte para Localização Visual nos conjuntos de dados LaMAR, onde apenas alteramos o método de recuperação no pipeline de localização existente. O código do MegaLoc está disponível em https://github.com/gmberton/MegaLoc.
English
Retrieving images from the same location as a given query is an important component of multiple computer vision tasks, like Visual Place Recognition, Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However, existing solutions are built to specifically work for one of these tasks, and are known to fail when the requirements slightly change or when they meet out-of-distribution data. In this paper we combine a variety of existing methods, training techniques, and datasets to train a retrieval model, called MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1) achieves state of the art on a large number of Visual Place Recognition datasets, (2) impressive results on common Landmark Retrieval datasets, and (3) sets a new state of the art for Visual Localization on the LaMAR datasets, where we only changed the retrieval method to the existing localization pipeline. The code for MegaLoc is available at https://github.com/gmberton/MegaLoc

Summary

AI-Generated Summary

PDF32February 25, 2025