GRE Suite : Inférence de géolocalisation via des modèles vision-langage affinés et des chaînes de raisonnement améliorées
GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains
May 24, 2025
Auteurs: Chun Wang, Xiaoran Pan, Zihao Pan, Haofan Wang, Yiren Song
cs.AI
Résumé
Les récentes avancées dans les modèles de langage visuel (VLMs) ont démontré des performances exceptionnelles dans les tâches de raisonnement visuel. Cependant, la géolocalisation présente des défis uniques, nécessitant l'extraction d'indices visuels multi-granulaires à partir d'images et leur intégration avec des connaissances externes du monde pour un raisonnement systématique. Les approches actuelles des tâches de géolocalisation manquent souvent de mécanismes de raisonnement robustes et d'explicabilité, limitant ainsi leur efficacité. Pour pallier ces limitations, nous proposons la suite Geo Reason Enhancement (GRE), un cadre novateur qui enrichit les VLMs avec des chaînes de raisonnement structurées pour une inférence de localisation précise et interprétable. La suite GRE est systématiquement développée selon trois dimensions clés : ensemble de données, modèle et benchmark. Tout d'abord, nous introduisons GRE30K, un ensemble de données de raisonnement de géolocalisation de haute qualité conçu pour faciliter une analyse visuelle et contextuelle fine. Ensuite, nous présentons le modèle GRE, qui utilise une stratégie de raisonnement en plusieurs étapes pour inférer progressivement les attributs de la scène, les détails locaux et les caractéristiques sémantiques, réduisant ainsi les régions géographiques potentielles avec une précision accrue. Enfin, nous construisons le benchmark d'évaluation Geo Reason (GREval-Bench), un cadre d'évaluation complet qui évalue les VLMs à travers diverses scènes urbaines, naturelles et de points d'intérêt pour mesurer les performances de localisation à la fois grossières (par exemple, pays, continent) et fines (par exemple, ville, rue). Les résultats expérimentaux montrent que GRE surpasse significativement les méthodes existantes à toutes les granularités des tâches de géolocalisation, soulignant l'efficacité des VLMs enrichis de raisonnement dans l'inférence géographique complexe. Le code et les données seront disponibles à l'adresse https://github.com/Thorin215/GRE.
English
Recent advances in Visual Language Models (VLMs) have demonstrated
exceptional performance in visual reasoning tasks. However, geo-localization
presents unique challenges, requiring the extraction of multigranular visual
cues from images and their integration with external world knowledge for
systematic reasoning. Current approaches to geo-localization tasks often lack
robust reasoning mechanisms and explainability, limiting their effectiveness.
To address these limitations, we propose the Geo Reason Enhancement (GRE)
Suite, a novel framework that augments VLMs with structured reasoning chains
for accurate and interpretable location inference. The GRE Suite is
systematically developed across three key dimensions: dataset, model, and
benchmark. First, we introduce GRE30K, a high-quality geo-localization
reasoning dataset designed to facilitate fine-grained visual and contextual
analysis. Next, we present the GRE model, which employs a multi-stage reasoning
strategy to progressively infer scene attributes, local details, and semantic
features, thereby narrowing down potential geographic regions with enhanced
precision. Finally, we construct the Geo Reason Evaluation Benchmark
(GREval-Bench), a comprehensive evaluation framework that assesses VLMs across
diverse urban, natural, and landmark scenes to measure both coarse-grained
(e.g., country, continent) and fine-grained (e.g., city, street) localization
performance. Experimental results demonstrate that GRE significantly
outperforms existing methods across all granularities of geo-localization
tasks, underscoring the efficacy of reasoning-augmented VLMs in complex
geographic inference. Code and data will be released at
https://github.com/Thorin215/GRE.Summary
AI-Generated Summary