ChatPaper.aiChatPaper

GRE Suite: Geo-lokalisatie-inferentie via fijn afgestelde visueel-taalkundige modellen en verbeterde redeneerketens

GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains

May 24, 2025
Auteurs: Chun Wang, Xiaoran Pan, Zihao Pan, Haofan Wang, Yiren Song
cs.AI

Samenvatting

Recente vooruitgang in Visuele Taalmodellen (VLMs) heeft uitzonderlijke prestaties aangetoond in visuele redeneertaken. Geo-localisatie brengt echter unieke uitdagingen met zich mee, waarbij het nodig is om multigranulaire visuele aanwijzingen uit afbeeldingen te extraheren en deze te integreren met externe wereldkennis voor systematisch redeneren. Huidige benaderingen voor geo-localisatietaken missen vaak robuuste redeneermechanismen en uitlegbaarheid, wat hun effectiviteit beperkt. Om deze beperkingen aan te pakken, stellen we de Geo Reason Enhancement (GRE) Suite voor, een nieuw framework dat VLMs uitbreidt met gestructureerde redeneerketens voor nauwkeurige en interpreteerbare locatie-inferentie. De GRE Suite is systematisch ontwikkeld langs drie belangrijke dimensies: dataset, model en benchmark. Ten eerste introduceren we GRE30K, een hoogwaardige geo-localisatie redeneerdataset die is ontworpen om fijnmazige visuele en contextuele analyse te vergemakkelijken. Vervolgens presenteren we het GRE-model, dat een meerfasen redeneerstrategie gebruikt om geleidelijk scène-attributen, lokale details en semantische kenmerken af te leiden, waardoor potentiële geografische regio's met verhoogde precisie worden verkleind. Tot slot construeren we de Geo Reason Evaluation Benchmark (GREval-Bench), een uitgebreid evaluatieframework dat VLMs beoordeelt in diverse stedelijke, natuurlijke en bezienswaardigheidsscènes om zowel grofmazige (bijv. land, continent) als fijnmazige (bijv. stad, straat) localisatieprestaties te meten. Experimentele resultaten tonen aan dat GRE aanzienlijk beter presteert dan bestaande methoden op alle granulariteiten van geo-localisatietaken, wat de effectiviteit van redenering-versterkte VLMs in complexe geografische inferentie onderstreept. Code en data zullen worden vrijgegeven op https://github.com/Thorin215/GRE.
English
Recent advances in Visual Language Models (VLMs) have demonstrated exceptional performance in visual reasoning tasks. However, geo-localization presents unique challenges, requiring the extraction of multigranular visual cues from images and their integration with external world knowledge for systematic reasoning. Current approaches to geo-localization tasks often lack robust reasoning mechanisms and explainability, limiting their effectiveness. To address these limitations, we propose the Geo Reason Enhancement (GRE) Suite, a novel framework that augments VLMs with structured reasoning chains for accurate and interpretable location inference. The GRE Suite is systematically developed across three key dimensions: dataset, model, and benchmark. First, we introduce GRE30K, a high-quality geo-localization reasoning dataset designed to facilitate fine-grained visual and contextual analysis. Next, we present the GRE model, which employs a multi-stage reasoning strategy to progressively infer scene attributes, local details, and semantic features, thereby narrowing down potential geographic regions with enhanced precision. Finally, we construct the Geo Reason Evaluation Benchmark (GREval-Bench), a comprehensive evaluation framework that assesses VLMs across diverse urban, natural, and landmark scenes to measure both coarse-grained (e.g., country, continent) and fine-grained (e.g., city, street) localization performance. Experimental results demonstrate that GRE significantly outperforms existing methods across all granularities of geo-localization tasks, underscoring the efficacy of reasoning-augmented VLMs in complex geographic inference. Code and data will be released at https://github.com/Thorin215/GRE.
PDF42May 29, 2025