ChatPaper.aiChatPaper

MegaLoc: Eén Retrieval om Ze Allemaal te Plaatsen

MegaLoc: One Retrieval to Place Them All

February 24, 2025
Auteurs: Gabriele Berton, Carlo Masone
cs.AI

Samenvatting

Het ophalen van afbeeldingen van dezelfde locatie als een gegeven query is een belangrijk onderdeel van meerdere computervisietaken, zoals Visuele Plaatsherkenning, Landmark Retrieval, Visuele Lokalisatie, 3D-reconstructie en SLAM. Bestaande oplossingen zijn echter specifiek ontwikkeld voor één van deze taken en blijken te falen wanneer de vereisten lichtelijk veranderen of wanneer ze te maken krijgen met gegevens die buiten de trainingsdistributie vallen. In dit artikel combineren we een verscheidenheid aan bestaande methoden, trainingstechnieken en datasets om een retrievalmodel, genaamd MegaLoc, te trainen dat presteert op meerdere taken. We constateren dat MegaLoc (1) state-of-the-art prestaties behaalt op een groot aantal Visuele Plaatsherkenning-datasets, (2) indrukwekkende resultaten boekt op veelgebruikte Landmark Retrieval-datasets, en (3) een nieuwe state-of-the-art neerzet voor Visuele Lokalisatie op de LaMAR-datasets, waarbij we alleen de retrievamethode hebben aangepast binnen de bestaande lokalisatiepipeline. De code voor MegaLoc is beschikbaar op https://github.com/gmberton/MegaLoc.
English
Retrieving images from the same location as a given query is an important component of multiple computer vision tasks, like Visual Place Recognition, Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However, existing solutions are built to specifically work for one of these tasks, and are known to fail when the requirements slightly change or when they meet out-of-distribution data. In this paper we combine a variety of existing methods, training techniques, and datasets to train a retrieval model, called MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1) achieves state of the art on a large number of Visual Place Recognition datasets, (2) impressive results on common Landmark Retrieval datasets, and (3) sets a new state of the art for Visual Localization on the LaMAR datasets, where we only changed the retrieval method to the existing localization pipeline. The code for MegaLoc is available at https://github.com/gmberton/MegaLoc

Summary

AI-Generated Summary

PDF32February 25, 2025