GRE Suite: Geo-Lokalisierungsinferenz durch feinabgestimmte Vision-Sprache-Modelle und verbesserte Argumentationsketten
GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains
May 24, 2025
Autoren: Chun Wang, Xiaoran Pan, Zihao Pan, Haofan Wang, Yiren Song
cs.AI
Zusammenfassung
Jüngste Fortschritte in visuellen Sprachmodellen (VLMs) haben außergewöhnliche Leistungen bei visuellen Denkaufgaben gezeigt. Die Geo-Lokalisierung stellt jedoch einzigartige Herausforderungen dar, da sie die Extraktion mehrgranularer visueller Hinweise aus Bildern und deren Integration mit externem Weltwissen für systematisches Denken erfordert. Aktuelle Ansätze für Geo-Lokalisierungsaufgaben mangelt es oft an robusten Denkmechanismen und Erklärbarkeit, was ihre Effektivität einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir die Geo Reason Enhancement (GRE) Suite vor, ein neuartiges Framework, das VLMs mit strukturierten Denkketten für präzise und interpretierbare Standortinferenzen erweitert. Die GRE Suite wird systematisch über drei Schlüsseldimensionen entwickelt: Datensatz, Modell und Benchmark. Zunächst führen wir GRE30K ein, einen hochwertigen Geo-Lokalisierungs-Denkdatensatz, der feinkörnige visuelle und kontextuelle Analysen ermöglicht. Anschließend präsentieren wir das GRE-Modell, das eine mehrstufige Denkstrategie verwendet, um Szenenattribute, lokale Details und semantische Merkmale schrittweise abzuleiten und so potenzielle geografische Regionen mit erhöhter Präzision einzugrenzen. Schließlich konstruieren wir den Geo Reason Evaluation Benchmark (GREval-Bench), ein umfassendes Bewertungsframework, das VLMs über diverse urbane, natürliche und Wahrzeichen-Szenen hinweg bewertet, um sowohl grobkörnige (z. B. Land, Kontinent) als auch feinkörnige (z. B. Stadt, Straße) Lokalisierungsleistungen zu messen. Experimentelle Ergebnisse zeigen, dass GRE bestehende Methoden über alle Granularitäten von Geo-Lokalisierungsaufgaben hinweg deutlich übertrifft, was die Wirksamkeit von Denk-erweiterten VLMs bei komplexen geografischen Inferenzen unterstreicht. Code und Daten werden unter https://github.com/Thorin215/GRE veröffentlicht.
English
Recent advances in Visual Language Models (VLMs) have demonstrated
exceptional performance in visual reasoning tasks. However, geo-localization
presents unique challenges, requiring the extraction of multigranular visual
cues from images and their integration with external world knowledge for
systematic reasoning. Current approaches to geo-localization tasks often lack
robust reasoning mechanisms and explainability, limiting their effectiveness.
To address these limitations, we propose the Geo Reason Enhancement (GRE)
Suite, a novel framework that augments VLMs with structured reasoning chains
for accurate and interpretable location inference. The GRE Suite is
systematically developed across three key dimensions: dataset, model, and
benchmark. First, we introduce GRE30K, a high-quality geo-localization
reasoning dataset designed to facilitate fine-grained visual and contextual
analysis. Next, we present the GRE model, which employs a multi-stage reasoning
strategy to progressively infer scene attributes, local details, and semantic
features, thereby narrowing down potential geographic regions with enhanced
precision. Finally, we construct the Geo Reason Evaluation Benchmark
(GREval-Bench), a comprehensive evaluation framework that assesses VLMs across
diverse urban, natural, and landmark scenes to measure both coarse-grained
(e.g., country, continent) and fine-grained (e.g., city, street) localization
performance. Experimental results demonstrate that GRE significantly
outperforms existing methods across all granularities of geo-localization
tasks, underscoring the efficacy of reasoning-augmented VLMs in complex
geographic inference. Code and data will be released at
https://github.com/Thorin215/GRE.Summary
AI-Generated Summary