GRE Suite: Inferenza di Geo-localizzazione tramite Modelli Visione-Linguaggio Fine-Tunati e Catene di Ragionamento Potenziate
GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains
May 24, 2025
Autori: Chun Wang, Xiaoran Pan, Zihao Pan, Haofan Wang, Yiren Song
cs.AI
Abstract
I recenti progressi nei Modelli di Linguaggio Visivo (VLMs) hanno dimostrato prestazioni eccezionali nei compiti di ragionamento visivo. Tuttavia, la geo-localizzazione presenta sfide uniche, richiedendo l'estrazione di indizi visivi multigranulari dalle immagini e la loro integrazione con conoscenze esterne del mondo per un ragionamento sistematico. Gli approcci attuali ai compiti di geo-localizzazione spesso mancano di meccanismi di ragionamento robusti e di spiegabilità, limitandone l'efficacia. Per affrontare queste limitazioni, proponiamo la Geo Reason Enhancement (GRE) Suite, un nuovo framework che potenzia i VLMs con catene di ragionamento strutturate per un'inferenza di localizzazione accurata e interpretabile. La GRE Suite è sviluppata sistematicamente lungo tre dimensioni chiave: dataset, modello e benchmark. In primo luogo, introduciamo GRE30K, un dataset di ragionamento per geo-localizzazione di alta qualità progettato per facilitare l'analisi visiva e contestuale fine. Successivamente, presentiamo il modello GRE, che impiega una strategia di ragionamento multi-stadio per inferire progressivamente attributi della scena, dettagli locali e caratteristiche semantiche, restringendo così le potenziali regioni geografiche con precisione migliorata. Infine, costruiamo il Geo Reason Evaluation Benchmark (GREval-Bench), un framework di valutazione completo che valuta i VLMs in diverse scene urbane, naturali e di landmark per misurare le prestazioni di localizzazione sia a livello granulare grossolano (ad esempio, paese, continente) che fine (ad esempio, città, strada). I risultati sperimentali dimostrano che GRE supera significativamente i metodi esistenti in tutti i livelli di granularità dei compiti di geo-localizzazione, sottolineando l'efficacia dei VLMs potenziati dal ragionamento nell'inferenza geografica complessa. Codice e dati saranno rilasciati su https://github.com/Thorin215/GRE.
English
Recent advances in Visual Language Models (VLMs) have demonstrated
exceptional performance in visual reasoning tasks. However, geo-localization
presents unique challenges, requiring the extraction of multigranular visual
cues from images and their integration with external world knowledge for
systematic reasoning. Current approaches to geo-localization tasks often lack
robust reasoning mechanisms and explainability, limiting their effectiveness.
To address these limitations, we propose the Geo Reason Enhancement (GRE)
Suite, a novel framework that augments VLMs with structured reasoning chains
for accurate and interpretable location inference. The GRE Suite is
systematically developed across three key dimensions: dataset, model, and
benchmark. First, we introduce GRE30K, a high-quality geo-localization
reasoning dataset designed to facilitate fine-grained visual and contextual
analysis. Next, we present the GRE model, which employs a multi-stage reasoning
strategy to progressively infer scene attributes, local details, and semantic
features, thereby narrowing down potential geographic regions with enhanced
precision. Finally, we construct the Geo Reason Evaluation Benchmark
(GREval-Bench), a comprehensive evaluation framework that assesses VLMs across
diverse urban, natural, and landmark scenes to measure both coarse-grained
(e.g., country, continent) and fine-grained (e.g., city, street) localization
performance. Experimental results demonstrate that GRE significantly
outperforms existing methods across all granularities of geo-localization
tasks, underscoring the efficacy of reasoning-augmented VLMs in complex
geographic inference. Code and data will be released at
https://github.com/Thorin215/GRE.