MegaLoc: Un único sistema de recuperación para ubicarlos a todos
MegaLoc: One Retrieval to Place Them All
February 24, 2025
Autores: Gabriele Berton, Carlo Masone
cs.AI
Resumen
Recuperar imágenes de la misma ubicación que una consulta dada es un componente importante de múltiples tareas de visión por computadora, como el Reconocimiento Visual de Lugares, la Recuperación de Puntos de Referencia, la Localización Visual, la Reconstrucción 3D y SLAM. Sin embargo, las soluciones existentes están diseñadas para funcionar específicamente en una de estas tareas y se sabe que fallan cuando los requisitos cambian ligeramente o cuando se enfrentan a datos fuera de distribución. En este artículo, combinamos una variedad de métodos existentes, técnicas de entrenamiento y conjuntos de datos para entrenar un modelo de recuperación, llamado MegaLoc, que es eficaz en múltiples tareas. Descubrimos que MegaLoc (1) alcanza el estado del arte en un gran número de conjuntos de datos de Reconocimiento Visual de Lugares, (2) obtiene resultados impresionantes en conjuntos de datos comunes de Recuperación de Puntos de Referencia, y (3) establece un nuevo estado del arte para la Localización Visual en los conjuntos de datos LaMAR, donde solo modificamos el método de recuperación en la tubería de localización existente. El código de MegaLoc está disponible en https://github.com/gmberton/MegaLoc.
English
Retrieving images from the same location as a given query is an important
component of multiple computer vision tasks, like Visual Place Recognition,
Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However,
existing solutions are built to specifically work for one of these tasks, and
are known to fail when the requirements slightly change or when they meet
out-of-distribution data. In this paper we combine a variety of existing
methods, training techniques, and datasets to train a retrieval model, called
MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1)
achieves state of the art on a large number of Visual Place Recognition
datasets, (2) impressive results on common Landmark Retrieval datasets, and (3)
sets a new state of the art for Visual Localization on the LaMAR datasets,
where we only changed the retrieval method to the existing localization
pipeline. The code for MegaLoc is available at
https://github.com/gmberton/MegaLoc