ChatPaper.aiChatPaper

Rund um die Welt in 80 Zeitschritten: Ein generativer Ansatz zur globalen visuellen Geolokalisierung

Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

December 9, 2024
Autoren: Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
cs.AI

Zusammenfassung

Die globale visuelle Geolokalisierung sagt voraus, wo ein Bild auf der Erde aufgenommen wurde. Da Bilder in ihrer Genauigkeit variieren, beinhaltet diese Aufgabe zwangsläufig ein erhebliches Maß an Unschärfe. Allerdings sind bestehende Ansätze deterministisch und übersehen diesen Aspekt. In diesem Paper zielen wir darauf ab, die Kluft zwischen traditioneller Geolokalisierung und modernen generativen Methoden zu schließen. Wir schlagen den ersten generativen Geolokalisierungsansatz vor, der auf Diffusion und Riemannschem Flussabgleich basiert, wobei der Entrauschungsprozess direkt auf der Erdoberfläche stattfindet. Unser Modell erzielt Spitzenleistungen auf drei visuellen Geolokalisierungs-Benchmarks: OpenStreetView-5M, YFCC-100M und iNat21. Darüber hinaus führen wir die Aufgabe der probabilistischen visuellen Geolokalisierung ein, bei der das Modell eine Wahrscheinlichkeitsverteilung über alle möglichen Standorte anstelle eines einzelnen Punktes vorhersagt. Wir stellen neue Metriken und Baselines für diese Aufgabe vor und zeigen die Vorteile unseres auf Diffusion basierenden Ansatzes auf. Codes und Modelle werden verfügbar gemacht.
English
Global visual geolocation predicts where an image was captured on Earth. Since images vary in how precisely they can be localized, this task inherently involves a significant degree of ambiguity. However, existing approaches are deterministic and overlook this aspect. In this paper, we aim to close the gap between traditional geolocalization and modern generative methods. We propose the first generative geolocation approach based on diffusion and Riemannian flow matching, where the denoising process operates directly on the Earth's surface. Our model achieves state-of-the-art performance on three visual geolocation benchmarks: OpenStreetView-5M, YFCC-100M, and iNat21. In addition, we introduce the task of probabilistic visual geolocation, where the model predicts a probability distribution over all possible locations instead of a single point. We introduce new metrics and baselines for this task, demonstrating the advantages of our diffusion-based approach. Codes and models will be made available.

Summary

AI-Generated Summary

PDF212December 10, 2024