GRE Suite: Geo-Lokalisierungsinferenz durch feinabgestimmte Vision-Sprache-Modelle und verbesserte Argumentationsketten

Zusammenfassung

Jüngste Fortschritte in visuellen Sprachmodellen (VLMs) haben außergewöhnliche Leistungen bei visuellen Denkaufgaben gezeigt. Die Geo-Lokalisierung stellt jedoch einzigartige Herausforderungen dar, da sie die Extraktion mehrgranularer visueller Hinweise aus Bildern und deren Integration mit externem Weltwissen für systematisches Denken erfordert. Aktuelle Ansätze für Geo-Lokalisierungsaufgaben mangelt es oft an robusten Denkmechanismen und Erklärbarkeit, was ihre Effektivität einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir die Geo Reason Enhancement (GRE) Suite vor, ein neuartiges Framework, das VLMs mit strukturierten Denkketten für präzise und interpretierbare Standortinferenzen erweitert. Die GRE Suite wird systematisch über drei Schlüsseldimensionen entwickelt: Datensatz, Modell und Benchmark. Zunächst führen wir GRE30K ein, einen hochwertigen Geo-Lokalisierungs-Denkdatensatz, der feinkörnige visuelle und kontextuelle Analysen ermöglicht. Anschließend präsentieren wir das GRE-Modell, das eine mehrstufige Denkstrategie verwendet, um Szenenattribute, lokale Details und semantische Merkmale schrittweise abzuleiten und so potenzielle geografische Regionen mit erhöhter Präzision einzugrenzen. Schließlich konstruieren wir den Geo Reason Evaluation Benchmark (GREval-Bench), ein umfassendes Bewertungsframework, das VLMs über diverse urbane, natürliche und Wahrzeichen-Szenen hinweg bewertet, um sowohl grobkörnige (z. B. Land, Kontinent) als auch feinkörnige (z. B. Stadt, Straße) Lokalisierungsleistungen zu messen. Experimentelle Ergebnisse zeigen, dass GRE bestehende Methoden über alle Granularitäten von Geo-Lokalisierungsaufgaben hinweg deutlich übertrifft, was die Wirksamkeit von Denk-erweiterten VLMs bei komplexen geografischen Inferenzen unterstreicht. Code und Daten werden unter https://github.com/Thorin215/GRE veröffentlicht.

English

Recent advances in Visual Language Models (VLMs) have demonstrated exceptional performance in visual reasoning tasks. However, geo-localization presents unique challenges, requiring the extraction of multigranular visual cues from images and their integration with external world knowledge for systematic reasoning. Current approaches to geo-localization tasks often lack robust reasoning mechanisms and explainability, limiting their effectiveness. To address these limitations, we propose the Geo Reason Enhancement (GRE) Suite, a novel framework that augments VLMs with structured reasoning chains for accurate and interpretable location inference. The GRE Suite is systematically developed across three key dimensions: dataset, model, and benchmark. First, we introduce GRE30K, a high-quality geo-localization reasoning dataset designed to facilitate fine-grained visual and contextual analysis. Next, we present the GRE model, which employs a multi-stage reasoning strategy to progressively infer scene attributes, local details, and semantic features, thereby narrowing down potential geographic regions with enhanced precision. Finally, we construct the Geo Reason Evaluation Benchmark (GREval-Bench), a comprehensive evaluation framework that assesses VLMs across diverse urban, natural, and landmark scenes to measure both coarse-grained (e.g., country, continent) and fine-grained (e.g., city, street) localization performance. Experimental results demonstrate that GRE significantly outperforms existing methods across all granularities of geo-localization tasks, underscoring the efficacy of reasoning-augmented VLMs in complex geographic inference. Code and data will be released at https://github.com/Thorin215/GRE.