NAVIG: Natürlichsprachgesteuerte Analyse mit Vision-Language-Modellen zur Bild-Geolokalisierung

Zusammenfassung

Bild-Geolokalisierung ist die Aufgabe, den spezifischen Standort eines Bildes vorherzusagen und erfordert komplexe Schlussfolgerungen über visuelle, geografische und kulturelle Kontexte hinweg. Während bisherige Vision-Language-Modelle (VLMs) die höchste Genauigkeit bei dieser Aufgabe aufweisen, mangelt es an hochwertigen Datensätzen und Modellen für analytisches Denken. Zunächst erstellen wir NaviClues, einen hochwertigen Datensatz, der aus GeoGuessr, einem beliebten Geografiespiel, abgeleitet wird, um Beispiele für Experten-Schlussfolgerungen aus der Sprache bereitzustellen. Mit diesem Datensatz präsentieren wir Navig, ein umfassendes Framework zur Bild-Geolokalisierung, das globale und fein abgestufte Bildinformationen integriert. Durch das Schlussfolgern mit Sprache reduziert Navig den durchschnittlichen Distanzfehler um 14 % im Vergleich zu bisherigen State-of-the-Art-Modellen, während weniger als 1000 Trainingsbeispiele benötigt werden. Unser Datensatz und Code sind unter https://github.com/SparrowZheyuan18/Navig/ verfügbar.

English

Image geo-localization is the task of predicting the specific location of an image and requires complex reasoning across visual, geographical, and cultural contexts. While prior Vision Language Models (VLMs) have the best accuracy at this task, there is a dearth of high-quality datasets and models for analytical reasoning. We first create NaviClues, a high-quality dataset derived from GeoGuessr, a popular geography game, to supply examples of expert reasoning from language. Using this dataset, we present Navig, a comprehensive image geo-localization framework integrating global and fine-grained image information. By reasoning with language, Navig reduces the average distance error by 14% compared to previous state-of-the-art models while requiring fewer than 1000 training samples. Our dataset and code are available at https://github.com/SparrowZheyuan18/Navig/.