Autour du Monde en 80 Pas de Temps : Une Approche Générative de Géolocalisation Visuelle Globale
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation
December 9, 2024
Auteurs: Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
cs.AI
Résumé
La géolocalisation visuelle globale prédit où une image a été capturée sur Terre. Comme les images varient en termes de précision de localisation, cette tâche implique intrinsèquement un degré significatif d'ambiguïté. Cependant, les approches existantes sont déterministes et négligent cet aspect. Dans cet article, nous visons à combler l'écart entre la géolocalisation traditionnelle et les méthodes génératives modernes. Nous proposons la première approche générative de géolocalisation basée sur la diffusion et la correspondance de flux riemannien, où le processus de débruitage opère directement sur la surface de la Terre. Notre modèle atteint des performances de pointe sur trois référentiels de géolocalisation visuelle : OpenStreetView-5M, YFCC-100M et iNat21. De plus, nous introduisons la tâche de géolocalisation visuelle probabiliste, où le modèle prédit une distribution de probabilité sur toutes les localisations possibles au lieu d'un seul point. Nous présentons de nouvelles mesures et des bases pour cette tâche, démontrant les avantages de notre approche basée sur la diffusion. Les codes et les modèles seront rendus disponibles.
English
Global visual geolocation predicts where an image was captured on Earth.
Since images vary in how precisely they can be localized, this task inherently
involves a significant degree of ambiguity. However, existing approaches are
deterministic and overlook this aspect. In this paper, we aim to close the gap
between traditional geolocalization and modern generative methods. We propose
the first generative geolocation approach based on diffusion and Riemannian
flow matching, where the denoising process operates directly on the Earth's
surface. Our model achieves state-of-the-art performance on three visual
geolocation benchmarks: OpenStreetView-5M, YFCC-100M, and iNat21. In addition,
we introduce the task of probabilistic visual geolocation, where the model
predicts a probability distribution over all possible locations instead of a
single point. We introduce new metrics and baselines for this task,
demonstrating the advantages of our diffusion-based approach. Codes and models
will be made available.Summary
AI-Generated Summary