MegaLoc: Eén Retrieval om Ze Allemaal te Plaatsen
MegaLoc: One Retrieval to Place Them All
February 24, 2025
Auteurs: Gabriele Berton, Carlo Masone
cs.AI
Samenvatting
Het ophalen van afbeeldingen van dezelfde locatie als een gegeven query is een belangrijk onderdeel van meerdere computervisietaken, zoals Visuele Plaatsherkenning, Landmark Retrieval, Visuele Lokalisatie, 3D-reconstructie en SLAM. Bestaande oplossingen zijn echter specifiek ontwikkeld voor één van deze taken en blijken te falen wanneer de vereisten lichtelijk veranderen of wanneer ze te maken krijgen met gegevens die buiten de trainingsdistributie vallen. In dit artikel combineren we een verscheidenheid aan bestaande methoden, trainingstechnieken en datasets om een retrievalmodel, genaamd MegaLoc, te trainen dat presteert op meerdere taken. We constateren dat MegaLoc (1) state-of-the-art prestaties behaalt op een groot aantal Visuele Plaatsherkenning-datasets, (2) indrukwekkende resultaten boekt op veelgebruikte Landmark Retrieval-datasets, en (3) een nieuwe state-of-the-art neerzet voor Visuele Lokalisatie op de LaMAR-datasets, waarbij we alleen de retrievamethode hebben aangepast binnen de bestaande lokalisatiepipeline. De code voor MegaLoc is beschikbaar op https://github.com/gmberton/MegaLoc.
English
Retrieving images from the same location as a given query is an important
component of multiple computer vision tasks, like Visual Place Recognition,
Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However,
existing solutions are built to specifically work for one of these tasks, and
are known to fail when the requirements slightly change or when they meet
out-of-distribution data. In this paper we combine a variety of existing
methods, training techniques, and datasets to train a retrieval model, called
MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1)
achieves state of the art on a large number of Visual Place Recognition
datasets, (2) impressive results on common Landmark Retrieval datasets, and (3)
sets a new state of the art for Visual Localization on the LaMAR datasets,
where we only changed the retrieval method to the existing localization
pipeline. The code for MegaLoc is available at
https://github.com/gmberton/MegaLocSummary
AI-Generated Summary