GRE Suite: Вывод геолокации с помощью тонко настроенных визуально-языковых моделей и улучшенных цепочек рассуждений
GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains
May 24, 2025
Авторы: Chun Wang, Xiaoran Pan, Zihao Pan, Haofan Wang, Yiren Song
cs.AI
Аннотация
Последние достижения в области визуальных языковых моделей (VLMs) продемонстрировали исключительную производительность в задачах визуального анализа. Однако геолокация представляет собой уникальные вызовы, требующие извлечения многоуровневых визуальных признаков из изображений и их интеграции с внешними знаниями о мире для систематического рассуждения. Современные подходы к задачам геолокации часто страдают от отсутствия надежных механизмов рассуждения и объяснимости, что ограничивает их эффективность. Для устранения этих ограничений мы предлагаем набор Geo Reason Enhancement (GRE) — новый фреймворк, который расширяет VLMs структурированными цепочками рассуждений для точного и интерпретируемого вывода местоположения. Набор GRE разработан систематически по трем ключевым направлениям: набор данных, модель и эталон. Во-первых, мы представляем GRE30K — высококачественный набор данных для геолокационного анализа, предназначенный для облегчения детального визуального и контекстного анализа. Далее мы представляем модель GRE, которая использует многоэтапную стратегию рассуждений для постепенного вывода атрибутов сцены, локальных деталей и семантических признаков, тем самым сужая возможные географические регионы с повышенной точностью. Наконец, мы создаем эталон Geo Reason Evaluation Benchmark (GREval-Bench) — комплексную систему оценки, которая тестирует VLMs на разнообразных городских, природных и достопримечательных сценах для измерения как крупномасштабной (например, страна, континент), так и детальной (например, город, улица) локализации. Экспериментальные результаты показывают, что GRE значительно превосходит существующие методы на всех уровнях детализации задач геолокации, подчеркивая эффективность VLMs, усиленных рассуждениями, в сложных географических выводах. Код и данные будут доступны по адресу https://github.com/Thorin215/GRE.
English
Recent advances in Visual Language Models (VLMs) have demonstrated
exceptional performance in visual reasoning tasks. However, geo-localization
presents unique challenges, requiring the extraction of multigranular visual
cues from images and their integration with external world knowledge for
systematic reasoning. Current approaches to geo-localization tasks often lack
robust reasoning mechanisms and explainability, limiting their effectiveness.
To address these limitations, we propose the Geo Reason Enhancement (GRE)
Suite, a novel framework that augments VLMs with structured reasoning chains
for accurate and interpretable location inference. The GRE Suite is
systematically developed across three key dimensions: dataset, model, and
benchmark. First, we introduce GRE30K, a high-quality geo-localization
reasoning dataset designed to facilitate fine-grained visual and contextual
analysis. Next, we present the GRE model, which employs a multi-stage reasoning
strategy to progressively infer scene attributes, local details, and semantic
features, thereby narrowing down potential geographic regions with enhanced
precision. Finally, we construct the Geo Reason Evaluation Benchmark
(GREval-Bench), a comprehensive evaluation framework that assesses VLMs across
diverse urban, natural, and landmark scenes to measure both coarse-grained
(e.g., country, continent) and fine-grained (e.g., city, street) localization
performance. Experimental results demonstrate that GRE significantly
outperforms existing methods across all granularities of geo-localization
tasks, underscoring the efficacy of reasoning-augmented VLMs in complex
geographic inference. Code and data will be released at
https://github.com/Thorin215/GRE.Summary
AI-Generated Summary