NAVIG: Natürlichsprachgesteuerte Analyse mit Vision-Language-Modellen zur Bild-Geolokalisierung
NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization
February 20, 2025
Autoren: Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
cs.AI
Zusammenfassung
Bild-Geolokalisierung ist die Aufgabe, den spezifischen Standort eines Bildes vorherzusagen und erfordert komplexe Schlussfolgerungen über visuelle, geografische und kulturelle Kontexte hinweg. Während bisherige Vision-Language-Modelle (VLMs) die höchste Genauigkeit bei dieser Aufgabe aufweisen, mangelt es an hochwertigen Datensätzen und Modellen für analytisches Denken. Zunächst erstellen wir NaviClues, einen hochwertigen Datensatz, der aus GeoGuessr, einem beliebten Geografiespiel, abgeleitet wird, um Beispiele für Experten-Schlussfolgerungen aus der Sprache bereitzustellen. Mit diesem Datensatz präsentieren wir Navig, ein umfassendes Framework zur Bild-Geolokalisierung, das globale und fein abgestufte Bildinformationen integriert. Durch das Schlussfolgern mit Sprache reduziert Navig den durchschnittlichen Distanzfehler um 14 % im Vergleich zu bisherigen State-of-the-Art-Modellen, während weniger als 1000 Trainingsbeispiele benötigt werden. Unser Datensatz und Code sind unter https://github.com/SparrowZheyuan18/Navig/ verfügbar.
English
Image geo-localization is the task of predicting the specific location of an
image and requires complex reasoning across visual, geographical, and cultural
contexts. While prior Vision Language Models (VLMs) have the best accuracy at
this task, there is a dearth of high-quality datasets and models for analytical
reasoning. We first create NaviClues, a high-quality dataset derived from
GeoGuessr, a popular geography game, to supply examples of expert reasoning
from language. Using this dataset, we present Navig, a comprehensive image
geo-localization framework integrating global and fine-grained image
information. By reasoning with language, Navig reduces the average distance
error by 14% compared to previous state-of-the-art models while requiring fewer
than 1000 training samples. Our dataset and code are available at
https://github.com/SparrowZheyuan18/Navig/.Summary
AI-Generated Summary