NAVIG : Analyse guidée par le langage naturel avec des modèles vision-langage pour la géolocalisation d'images
NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization
February 20, 2025
Auteurs: Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
cs.AI
Résumé
La géolocalisation d'images consiste à prédire l'emplacement spécifique d'une image et nécessite un raisonnement complexe intégrant des contextes visuels, géographiques et culturels. Bien que les modèles vision-langage (VLMs) actuels offrent la meilleure précision pour cette tâche, il existe un manque de jeux de données et de modèles de haute qualité pour le raisonnement analytique. Nous créons d'abord NaviClues, un jeu de données de qualité supérieure dérivé de GeoGuessr, un jeu de géographie populaire, afin de fournir des exemples de raisonnement expert à partir du langage. En utilisant ce jeu de données, nous présentons Navig, un cadre complet de géolocalisation d'images intégrant des informations globales et fines sur les images. En raisonnant avec le langage, Navig réduit l'erreur de distance moyenne de 14 % par rapport aux modèles de pointe précédents, tout en nécessitant moins de 1000 échantillons d'entraînement. Notre jeu de données et notre code sont disponibles à l'adresse https://github.com/SparrowZheyuan18/Navig/.
English
Image geo-localization is the task of predicting the specific location of an
image and requires complex reasoning across visual, geographical, and cultural
contexts. While prior Vision Language Models (VLMs) have the best accuracy at
this task, there is a dearth of high-quality datasets and models for analytical
reasoning. We first create NaviClues, a high-quality dataset derived from
GeoGuessr, a popular geography game, to supply examples of expert reasoning
from language. Using this dataset, we present Navig, a comprehensive image
geo-localization framework integrating global and fine-grained image
information. By reasoning with language, Navig reduces the average distance
error by 14% compared to previous state-of-the-art models while requiring fewer
than 1000 training samples. Our dataset and code are available at
https://github.com/SparrowZheyuan18/Navig/.Summary
AI-Generated Summary