ChatPaper.aiChatPaper

GRE Suite : Inférence de géolocalisation via des modèles vision-langage affinés et des chaînes de raisonnement améliorées

GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains

May 24, 2025
Auteurs: Chun Wang, Xiaoran Pan, Zihao Pan, Haofan Wang, Yiren Song
cs.AI

Résumé

Les récentes avancées dans les modèles de langage visuel (VLMs) ont démontré des performances exceptionnelles dans les tâches de raisonnement visuel. Cependant, la géolocalisation présente des défis uniques, nécessitant l'extraction d'indices visuels multi-granulaires à partir d'images et leur intégration avec des connaissances externes du monde pour un raisonnement systématique. Les approches actuelles des tâches de géolocalisation manquent souvent de mécanismes de raisonnement robustes et d'explicabilité, limitant ainsi leur efficacité. Pour pallier ces limitations, nous proposons la suite Geo Reason Enhancement (GRE), un cadre novateur qui enrichit les VLMs avec des chaînes de raisonnement structurées pour une inférence de localisation précise et interprétable. La suite GRE est systématiquement développée selon trois dimensions clés : ensemble de données, modèle et benchmark. Tout d'abord, nous introduisons GRE30K, un ensemble de données de raisonnement de géolocalisation de haute qualité conçu pour faciliter une analyse visuelle et contextuelle fine. Ensuite, nous présentons le modèle GRE, qui utilise une stratégie de raisonnement en plusieurs étapes pour inférer progressivement les attributs de la scène, les détails locaux et les caractéristiques sémantiques, réduisant ainsi les régions géographiques potentielles avec une précision accrue. Enfin, nous construisons le benchmark d'évaluation Geo Reason (GREval-Bench), un cadre d'évaluation complet qui évalue les VLMs à travers diverses scènes urbaines, naturelles et de points d'intérêt pour mesurer les performances de localisation à la fois grossières (par exemple, pays, continent) et fines (par exemple, ville, rue). Les résultats expérimentaux montrent que GRE surpasse significativement les méthodes existantes à toutes les granularités des tâches de géolocalisation, soulignant l'efficacité des VLMs enrichis de raisonnement dans l'inférence géographique complexe. Le code et les données seront disponibles à l'adresse https://github.com/Thorin215/GRE.
English
Recent advances in Visual Language Models (VLMs) have demonstrated exceptional performance in visual reasoning tasks. However, geo-localization presents unique challenges, requiring the extraction of multigranular visual cues from images and their integration with external world knowledge for systematic reasoning. Current approaches to geo-localization tasks often lack robust reasoning mechanisms and explainability, limiting their effectiveness. To address these limitations, we propose the Geo Reason Enhancement (GRE) Suite, a novel framework that augments VLMs with structured reasoning chains for accurate and interpretable location inference. The GRE Suite is systematically developed across three key dimensions: dataset, model, and benchmark. First, we introduce GRE30K, a high-quality geo-localization reasoning dataset designed to facilitate fine-grained visual and contextual analysis. Next, we present the GRE model, which employs a multi-stage reasoning strategy to progressively infer scene attributes, local details, and semantic features, thereby narrowing down potential geographic regions with enhanced precision. Finally, we construct the Geo Reason Evaluation Benchmark (GREval-Bench), a comprehensive evaluation framework that assesses VLMs across diverse urban, natural, and landmark scenes to measure both coarse-grained (e.g., country, continent) and fine-grained (e.g., city, street) localization performance. Experimental results demonstrate that GRE significantly outperforms existing methods across all granularities of geo-localization tasks, underscoring the efficacy of reasoning-augmented VLMs in complex geographic inference. Code and data will be released at https://github.com/Thorin215/GRE.

Summary

AI-Generated Summary

PDF42May 29, 2025