GRE Suite: Inferencia de Geolocalización mediante Modelos de Visión-Lenguaje Ajustados y Cadenas de Razonamiento Mejoradas
GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains
May 24, 2025
Autores: Chun Wang, Xiaoran Pan, Zihao Pan, Haofan Wang, Yiren Song
cs.AI
Resumen
Los recientes avances en los Modelos de Lenguaje Visual (VLMs) han demostrado un rendimiento excepcional en tareas de razonamiento visual. Sin embargo, la geo-localización presenta desafíos únicos, ya que requiere la extracción de indicios visuales multigranulares de las imágenes y su integración con conocimiento externo del mundo para un razonamiento sistemático. Los enfoques actuales para tareas de geo-localización a menudo carecen de mecanismos de razonamiento robustos y explicabilidad, lo que limita su efectividad. Para abordar estas limitaciones, proponemos el Conjunto de Mejora de Razonamiento Geo (GRE Suite), un marco novedoso que potencia los VLMs con cadenas de razonamiento estructurado para inferencias de ubicación precisas e interpretables. El GRE Suite se desarrolla sistemáticamente en tres dimensiones clave: conjunto de datos, modelo y evaluación. Primero, presentamos GRE30K, un conjunto de datos de razonamiento de geo-localización de alta calidad diseñado para facilitar análisis visuales y contextuales detallados. A continuación, presentamos el modelo GRE, que emplea una estrategia de razonamiento en múltiples etapas para inferir progresivamente atributos de la escena, detalles locales y características semánticas, reduciendo así las regiones geográficas potenciales con mayor precisión. Finalmente, construimos el Marco de Evaluación de Razonamiento Geo (GREval-Bench), un marco de evaluación integral que mide el rendimiento de los VLMs en diversos escenarios urbanos, naturales y de puntos de referencia, evaluando tanto la localización de grano grueso (por ejemplo, país, continente) como de grano fino (por ejemplo, ciudad, calle). Los resultados experimentales demuestran que GRE supera significativamente a los métodos existentes en todos los niveles de granularidad de las tareas de geo-localización, destacando la eficacia de los VLMs potenciados con razonamiento en inferencias geográficas complejas. El código y los datos estarán disponibles en https://github.com/Thorin215/GRE.
English
Recent advances in Visual Language Models (VLMs) have demonstrated
exceptional performance in visual reasoning tasks. However, geo-localization
presents unique challenges, requiring the extraction of multigranular visual
cues from images and their integration with external world knowledge for
systematic reasoning. Current approaches to geo-localization tasks often lack
robust reasoning mechanisms and explainability, limiting their effectiveness.
To address these limitations, we propose the Geo Reason Enhancement (GRE)
Suite, a novel framework that augments VLMs with structured reasoning chains
for accurate and interpretable location inference. The GRE Suite is
systematically developed across three key dimensions: dataset, model, and
benchmark. First, we introduce GRE30K, a high-quality geo-localization
reasoning dataset designed to facilitate fine-grained visual and contextual
analysis. Next, we present the GRE model, which employs a multi-stage reasoning
strategy to progressively infer scene attributes, local details, and semantic
features, thereby narrowing down potential geographic regions with enhanced
precision. Finally, we construct the Geo Reason Evaluation Benchmark
(GREval-Bench), a comprehensive evaluation framework that assesses VLMs across
diverse urban, natural, and landmark scenes to measure both coarse-grained
(e.g., country, continent) and fine-grained (e.g., city, street) localization
performance. Experimental results demonstrate that GRE significantly
outperforms existing methods across all granularities of geo-localization
tasks, underscoring the efficacy of reasoning-augmented VLMs in complex
geographic inference. Code and data will be released at
https://github.com/Thorin215/GRE.Summary
AI-Generated Summary