NAVIG: Analisi Guidata dal Linguaggio Naturale con Modelli Visione-Linguaggio per la Geo-localizzazione di Immagini
NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization
February 20, 2025
Autori: Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
cs.AI
Abstract
La geo-localizzazione di immagini è il compito di prevedere la posizione specifica di un'immagine e richiede un ragionamento complesso che coinvolge contesti visivi, geografici e culturali. Sebbene i precedenti modelli di visione e linguaggio (VLMs) abbiano la migliore accuratezza in questo compito, c'è una carenza di dataset e modelli di alta qualità per il ragionamento analitico. Iniziamo creando NaviClues, un dataset di alta qualità derivato da GeoGuessr, un popolare gioco di geografia, per fornire esempi di ragionamento esperto basato sul linguaggio. Utilizzando questo dataset, presentiamo Navig, un framework completo per la geo-localizzazione di immagini che integra informazioni globali e dettagliate delle immagini. Ragionando con il linguaggio, Navig riduce l'errore medio di distanza del 14% rispetto ai precedenti modelli all'avanguardia, richiedendo meno di 1000 campioni di addestramento. Il nostro dataset e il codice sono disponibili all'indirizzo https://github.com/SparrowZheyuan18/Navig/.
English
Image geo-localization is the task of predicting the specific location of an
image and requires complex reasoning across visual, geographical, and cultural
contexts. While prior Vision Language Models (VLMs) have the best accuracy at
this task, there is a dearth of high-quality datasets and models for analytical
reasoning. We first create NaviClues, a high-quality dataset derived from
GeoGuessr, a popular geography game, to supply examples of expert reasoning
from language. Using this dataset, we present Navig, a comprehensive image
geo-localization framework integrating global and fine-grained image
information. By reasoning with language, Navig reduces the average distance
error by 14% compared to previous state-of-the-art models while requiring fewer
than 1000 training samples. Our dataset and code are available at
https://github.com/SparrowZheyuan18/Navig/.Summary
AI-Generated Summary