Alrededor del Mundo en 80 Pasos de Tiempo: Un Enfoque Generativo para la Geolocalización Visual Global
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation
December 9, 2024
Autores: Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
cs.AI
Resumen
La geolocalización visual global predice dónde se capturó una imagen en la Tierra. Dado que las imágenes varían en cuán precisamente pueden ser localizadas, esta tarea implica inherentemente un grado significativo de ambigüedad. Sin embargo, los enfoques existentes son deterministas y pasan por alto este aspecto. En este documento, nuestro objetivo es cerrar la brecha entre la geolocalización tradicional y los métodos generativos modernos. Proponemos el primer enfoque generativo de geolocalización basado en difusión y emparejamiento de flujo Riemanniano, donde el proceso de eliminación de ruido opera directamente en la superficie terrestre. Nuestro modelo logra un rendimiento de vanguardia en tres conjuntos de datos de geolocalización visual: OpenStreetView-5M, YFCC-100M e iNat21. Además, introducimos la tarea de geolocalización visual probabilística, donde el modelo predice una distribución de probabilidad sobre todas las posibles ubicaciones en lugar de un único punto. Presentamos nuevas métricas y líneas de base para esta tarea, demostrando las ventajas de nuestro enfoque basado en difusión. Los códigos y modelos estarán disponibles.
English
Global visual geolocation predicts where an image was captured on Earth.
Since images vary in how precisely they can be localized, this task inherently
involves a significant degree of ambiguity. However, existing approaches are
deterministic and overlook this aspect. In this paper, we aim to close the gap
between traditional geolocalization and modern generative methods. We propose
the first generative geolocation approach based on diffusion and Riemannian
flow matching, where the denoising process operates directly on the Earth's
surface. Our model achieves state-of-the-art performance on three visual
geolocation benchmarks: OpenStreetView-5M, YFCC-100M, and iNat21. In addition,
we introduce the task of probabilistic visual geolocation, where the model
predicts a probability distribution over all possible locations instead of a
single point. We introduce new metrics and baselines for this task,
demonstrating the advantages of our diffusion-based approach. Codes and models
will be made available.Summary
AI-Generated Summary