MegaLoc: Un Unico Sistema di Recupero per Collocarli Tutti
MegaLoc: One Retrieval to Place Them All
February 24, 2025
Autori: Gabriele Berton, Carlo Masone
cs.AI
Abstract
Il recupero di immagini provenienti dalla stessa posizione di una query data è un componente fondamentale di numerose attività di computer vision, come il riconoscimento visivo di luoghi (Visual Place Recognition), il recupero di punti di riferimento (Landmark Retrieval), la localizzazione visiva (Visual Localization), la ricostruzione 3D e la SLAM. Tuttavia, le soluzioni esistenti sono progettate per funzionare specificamente per una di queste attività e sono note per fallire quando i requisiti cambiano leggermente o quando si confrontano con dati fuori distribuzione. In questo articolo combiniamo una varietà di metodi esistenti, tecniche di addestramento e dataset per addestrare un modello di recupero, chiamato MegaLoc, che è performante su più attività. Scopriamo che MegaLoc (1) raggiunge lo stato dell'arte su un gran numero di dataset di riconoscimento visivo di luoghi, (2) ottiene risultati impressionanti su comuni dataset di recupero di punti di riferimento e (3) stabilisce un nuovo stato dell'arte per la localizzazione visiva sui dataset LaMAR, dove abbiamo modificato solo il metodo di recupero all'interno della pipeline di localizzazione esistente. Il codice di MegaLoc è disponibile all'indirizzo https://github.com/gmberton/MegaLoc.
English
Retrieving images from the same location as a given query is an important
component of multiple computer vision tasks, like Visual Place Recognition,
Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However,
existing solutions are built to specifically work for one of these tasks, and
are known to fail when the requirements slightly change or when they meet
out-of-distribution data. In this paper we combine a variety of existing
methods, training techniques, and datasets to train a retrieval model, called
MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1)
achieves state of the art on a large number of Visual Place Recognition
datasets, (2) impressive results on common Landmark Retrieval datasets, and (3)
sets a new state of the art for Visual Localization on the LaMAR datasets,
where we only changed the retrieval method to the existing localization
pipeline. The code for MegaLoc is available at
https://github.com/gmberton/MegaLocSummary
AI-Generated Summary