MegaLoc : Un système de recherche pour les localiser tous
MegaLoc: One Retrieval to Place Them All
February 24, 2025
Auteurs: Gabriele Berton, Carlo Masone
cs.AI
Résumé
La récupération d'images provenant du même emplacement qu'une requête donnée est un élément important de plusieurs tâches en vision par ordinateur, telles que la reconnaissance visuelle de lieux (Visual Place Recognition), la recherche de points d'intérêt (Landmark Retrieval), la localisation visuelle (Visual Localization), la reconstruction 3D et la localisation et cartographie simultanées (SLAM). Cependant, les solutions existantes sont conçues pour fonctionner spécifiquement pour l'une de ces tâches et sont connues pour échouer lorsque les exigences changent légèrement ou lorsqu'elles rencontrent des données hors distribution. Dans cet article, nous combinons une variété de méthodes existantes, de techniques d'entraînement et de jeux de données pour entraîner un modèle de récupération, appelé MegaLoc, qui est performant sur plusieurs tâches. Nous constatons que MegaLoc (1) atteint l'état de l'art sur un grand nombre de jeux de données de reconnaissance visuelle de lieux, (2) obtient des résultats impressionnants sur les jeux de données courants de recherche de points d'intérêt, et (3) établit un nouvel état de l'art pour la localisation visuelle sur les jeux de données LaMAR, où nous avons uniquement modifié la méthode de récupération dans le pipeline de localisation existant. Le code de MegaLoc est disponible à l'adresse suivante : https://github.com/gmberton/MegaLoc.
English
Retrieving images from the same location as a given query is an important
component of multiple computer vision tasks, like Visual Place Recognition,
Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However,
existing solutions are built to specifically work for one of these tasks, and
are known to fail when the requirements slightly change or when they meet
out-of-distribution data. In this paper we combine a variety of existing
methods, training techniques, and datasets to train a retrieval model, called
MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1)
achieves state of the art on a large number of Visual Place Recognition
datasets, (2) impressive results on common Landmark Retrieval datasets, and (3)
sets a new state of the art for Visual Localization on the LaMAR datasets,
where we only changed the retrieval method to the existing localization
pipeline. The code for MegaLoc is available at
https://github.com/gmberton/MegaLoc