NAVIG: Analyse met natuurlijke taalbegeleiding met Vision Language Models voor beeldgeolokalisatie

Samenvatting

Beeldgeolokalisatie is de taak om de specifieke locatie van een afbeelding te voorspellen en vereist complexe redenering over visuele, geografische en culturele contexten. Hoewel eerdere Vision Language Models (VLMs) de beste nauwkeurigheid hebben bij deze taak, is er een gebrek aan hoogwaardige datasets en modellen voor analytische redenering. We creëren eerst NaviClues, een hoogwaardige dataset afgeleid van GeoGuessr, een populair geografiespel, om voorbeelden te leveren van expertredenering uit taal. Met behulp van deze dataset presenteren we Navig, een uitgebreid raamwerk voor beeldgeolokalisatie dat globale en gedetailleerde beeldinformatie integreert. Door te redeneren met taal, vermindert Navig de gemiddelde afstandsfout met 14% in vergelijking met eerdere state-of-the-art modellen, terwijl er minder dan 1000 trainingsvoorbeelden nodig zijn. Onze dataset en code zijn beschikbaar op https://github.com/SparrowZheyuan18/Navig/.

English

Image geo-localization is the task of predicting the specific location of an image and requires complex reasoning across visual, geographical, and cultural contexts. While prior Vision Language Models (VLMs) have the best accuracy at this task, there is a dearth of high-quality datasets and models for analytical reasoning. We first create NaviClues, a high-quality dataset derived from GeoGuessr, a popular geography game, to supply examples of expert reasoning from language. Using this dataset, we present Navig, a comprehensive image geo-localization framework integrating global and fine-grained image information. By reasoning with language, Navig reduces the average distance error by 14% compared to previous state-of-the-art models while requiring fewer than 1000 training samples. Our dataset and code are available at https://github.com/SparrowZheyuan18/Navig/.

NAVIG: Analyse met natuurlijke taalbegeleiding met Vision Language Models voor beeldgeolokalisatie

NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

Samenvatting

Support