Вокруг света за 80 временных шагов: Генеративный подход к глобальной визуальной геолокации
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation
December 9, 2024
Авторы: Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
cs.AI
Аннотация
Глобальная визуальная геолокация предсказывает местоположение, где было сделано изображение на Земле. Поскольку изображения различаются по степени точности локализации, эта задача неизбежно связана с значительной степенью неопределенности. Однако существующие подходы детерминированы и не учитывают этот аспект. В данной статье мы стремимся сократить разрыв между традиционной геолокацией и современными генеративными методами. Мы предлагаем первый генеративный подход к геолокации на основе диффузии и сопоставления потока Римана, где процесс денойзинга работает непосредственно на поверхности Земли. Наша модель достигает передовых результатов на трех визуальных бенчмарках геолокации: OpenStreetView-5M, YFCC-100M и iNat21. Кроме того, мы представляем задачу вероятностной визуальной геолокации, где модель предсказывает распределение вероятностей по всем возможным местоположениям вместо одной точки. Мы вводим новые метрики и базовые значения для этой задачи, демонстрируя преимущества нашего подхода на основе диффузии. Коды и модели будут доступны.
English
Global visual geolocation predicts where an image was captured on Earth.
Since images vary in how precisely they can be localized, this task inherently
involves a significant degree of ambiguity. However, existing approaches are
deterministic and overlook this aspect. In this paper, we aim to close the gap
between traditional geolocalization and modern generative methods. We propose
the first generative geolocation approach based on diffusion and Riemannian
flow matching, where the denoising process operates directly on the Earth's
surface. Our model achieves state-of-the-art performance on three visual
geolocation benchmarks: OpenStreetView-5M, YFCC-100M, and iNat21. In addition,
we introduce the task of probabilistic visual geolocation, where the model
predicts a probability distribution over all possible locations instead of a
single point. We introduce new metrics and baselines for this task,
demonstrating the advantages of our diffusion-based approach. Codes and models
will be made available.Summary
AI-Generated Summary