NAVIG: Analyse met natuurlijke taalbegeleiding met Vision Language Models voor beeldgeolokalisatie
NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization
February 20, 2025
Auteurs: Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
cs.AI
Samenvatting
Beeldgeolokalisatie is de taak om de specifieke locatie van een afbeelding te voorspellen en vereist complexe redenering over visuele, geografische en culturele contexten. Hoewel eerdere Vision Language Models (VLMs) de beste nauwkeurigheid hebben bij deze taak, is er een gebrek aan hoogwaardige datasets en modellen voor analytische redenering. We creëren eerst NaviClues, een hoogwaardige dataset afgeleid van GeoGuessr, een populair geografiespel, om voorbeelden te leveren van expertredenering uit taal. Met behulp van deze dataset presenteren we Navig, een uitgebreid raamwerk voor beeldgeolokalisatie dat globale en gedetailleerde beeldinformatie integreert. Door te redeneren met taal, vermindert Navig de gemiddelde afstandsfout met 14% in vergelijking met eerdere state-of-the-art modellen, terwijl er minder dan 1000 trainingsvoorbeelden nodig zijn. Onze dataset en code zijn beschikbaar op https://github.com/SparrowZheyuan18/Navig/.
English
Image geo-localization is the task of predicting the specific location of an
image and requires complex reasoning across visual, geographical, and cultural
contexts. While prior Vision Language Models (VLMs) have the best accuracy at
this task, there is a dearth of high-quality datasets and models for analytical
reasoning. We first create NaviClues, a high-quality dataset derived from
GeoGuessr, a popular geography game, to supply examples of expert reasoning
from language. Using this dataset, we present Navig, a comprehensive image
geo-localization framework integrating global and fine-grained image
information. By reasoning with language, Navig reduces the average distance
error by 14% compared to previous state-of-the-art models while requiring fewer
than 1000 training samples. Our dataset and code are available at
https://github.com/SparrowZheyuan18/Navig/.Summary
AI-Generated Summary