Вокруг света за 80 временных шагов: Генеративный подход к глобальной визуальной геолокации

Аннотация

Глобальная визуальная геолокация предсказывает местоположение, где было сделано изображение на Земле. Поскольку изображения различаются по степени точности локализации, эта задача неизбежно связана с значительной степенью неопределенности. Однако существующие подходы детерминированы и не учитывают этот аспект. В данной статье мы стремимся сократить разрыв между традиционной геолокацией и современными генеративными методами. Мы предлагаем первый генеративный подход к геолокации на основе диффузии и сопоставления потока Римана, где процесс денойзинга работает непосредственно на поверхности Земли. Наша модель достигает передовых результатов на трех визуальных бенчмарках геолокации: OpenStreetView-5M, YFCC-100M и iNat21. Кроме того, мы представляем задачу вероятностной визуальной геолокации, где модель предсказывает распределение вероятностей по всем возможным местоположениям вместо одной точки. Мы вводим новые метрики и базовые значения для этой задачи, демонстрируя преимущества нашего подхода на основе диффузии. Коды и модели будут доступны.

English

Global visual geolocation predicts where an image was captured on Earth. Since images vary in how precisely they can be localized, this task inherently involves a significant degree of ambiguity. However, existing approaches are deterministic and overlook this aspect. In this paper, we aim to close the gap between traditional geolocalization and modern generative methods. We propose the first generative geolocation approach based on diffusion and Riemannian flow matching, where the denoising process operates directly on the Earth's surface. Our model achieves state-of-the-art performance on three visual geolocation benchmarks: OpenStreetView-5M, YFCC-100M, and iNat21. In addition, we introduce the task of probabilistic visual geolocation, where the model predicts a probability distribution over all possible locations instead of a single point. We introduce new metrics and baselines for this task, demonstrating the advantages of our diffusion-based approach. Codes and models will be made available.