NAVIG: Analisi Guidata dal Linguaggio Naturale con Modelli Visione-Linguaggio per la Geo-localizzazione di Immagini

Abstract

La geo-localizzazione di immagini è il compito di prevedere la posizione specifica di un'immagine e richiede un ragionamento complesso che coinvolge contesti visivi, geografici e culturali. Sebbene i precedenti modelli di visione e linguaggio (VLMs) abbiano la migliore accuratezza in questo compito, c'è una carenza di dataset e modelli di alta qualità per il ragionamento analitico. Iniziamo creando NaviClues, un dataset di alta qualità derivato da GeoGuessr, un popolare gioco di geografia, per fornire esempi di ragionamento esperto basato sul linguaggio. Utilizzando questo dataset, presentiamo Navig, un framework completo per la geo-localizzazione di immagini che integra informazioni globali e dettagliate delle immagini. Ragionando con il linguaggio, Navig riduce l'errore medio di distanza del 14% rispetto ai precedenti modelli all'avanguardia, richiedendo meno di 1000 campioni di addestramento. Il nostro dataset e il codice sono disponibili all'indirizzo https://github.com/SparrowZheyuan18/Navig/.

English

Image geo-localization is the task of predicting the specific location of an image and requires complex reasoning across visual, geographical, and cultural contexts. While prior Vision Language Models (VLMs) have the best accuracy at this task, there is a dearth of high-quality datasets and models for analytical reasoning. We first create NaviClues, a high-quality dataset derived from GeoGuessr, a popular geography game, to supply examples of expert reasoning from language. Using this dataset, we present Navig, a comprehensive image geo-localization framework integrating global and fine-grained image information. By reasoning with language, Navig reduces the average distance error by 14% compared to previous state-of-the-art models while requiring fewer than 1000 training samples. Our dataset and code are available at https://github.com/SparrowZheyuan18/Navig/.

NAVIG: Analisi Guidata dal Linguaggio Naturale con Modelli Visione-Linguaggio per la Geo-localizzazione di Immagini

NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

Abstract

Support