Rond de Wereld in 80 Tijdstappen: Een Generatieve Benadering van Globale Visuele Geolocatie
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation
December 9, 2024
Auteurs: Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
cs.AI
Samenvatting
Wereldwijde visuele geolocatie voorspelt waar een afbeelding op aarde is vastgelegd. Aangezien afbeeldingen variëren in hoe nauwkeurig ze kunnen worden gelokaliseerd, omvat deze taak inherent een aanzienlijke mate van ambiguïteit. Bestaande benaderingen zijn echter deterministisch en zien dit aspect over het hoofd. In dit artikel streven we ernaar om de kloof te dichten tussen traditionele geolocatie en moderne generatieve methoden. We stellen de eerste generatieve geolocatiebenadering voor op basis van diffusie en Riemanniaanse stroommatching, waarbij het denoisingproces rechtstreeks op het aardoppervlak werkt. Ons model behaalt state-of-the-art prestaties op drie visuele geolocatie-benchmarks: OpenStreetView-5M, YFCC-100M en iNat21. Bovendien introduceren we de taak van probabilistische visuele geolocatie, waarbij het model een kansverdeling voorspelt over alle mogelijke locaties in plaats van een enkel punt. We introduceren nieuwe metrieken en baselines voor deze taak, waarbij we de voordelen van onze op diffusie gebaseerde benadering aantonen. Codes en modellen zullen beschikbaar worden gesteld.
English
Global visual geolocation predicts where an image was captured on Earth.
Since images vary in how precisely they can be localized, this task inherently
involves a significant degree of ambiguity. However, existing approaches are
deterministic and overlook this aspect. In this paper, we aim to close the gap
between traditional geolocalization and modern generative methods. We propose
the first generative geolocation approach based on diffusion and Riemannian
flow matching, where the denoising process operates directly on the Earth's
surface. Our model achieves state-of-the-art performance on three visual
geolocation benchmarks: OpenStreetView-5M, YFCC-100M, and iNat21. In addition,
we introduce the task of probabilistic visual geolocation, where the model
predicts a probability distribution over all possible locations instead of a
single point. We introduce new metrics and baselines for this task,
demonstrating the advantages of our diffusion-based approach. Codes and models
will be made available.