ChatPaper.aiChatPaper

Geolokalisierung mit Echtzeit-Spieldaten von Menschen: Ein umfangreicher Datensatz und ein menschenähnliches Reasoning-Framework

Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

February 19, 2025
Autoren: Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
cs.AI

Zusammenfassung

Geolokalisierung, die Aufgabe, den Standort eines Bildes zu bestimmen, erfordert komplexe Schlussfolgerungen und ist entscheidend für Navigation, Überwachung und den Erhalt von Kulturgütern. Allerdings liefern aktuelle Methoden oft grobe, ungenaue und schwer interpretierbare Lokalisierungen. Eine große Herausforderung liegt in der Qualität und dem Umfang bestehender Geodatensätze. Diese Datensätze sind typischerweise klein und automatisch erstellt, was zu verrauschten Daten und inkonsistenter Aufgabenkomplexität führt, wobei Bilder entweder zu leicht die Antwort verraten oder nicht genügend Hinweise für zuverlässige Schlussfolgerungen bieten. Um diese Herausforderungen zu bewältigen, stellen wir ein umfassendes Geolokalisierungs-Framework mit drei Schlüsselkomponenten vor: GeoComp, einen groß angelegten Datensatz; GeoCoT, eine neuartige Schlussfolgerungsmethode; und GeoEval, ein Bewertungsmaßstab, die gemeinsam entwickelt wurden, um kritische Herausforderungen zu adressieren und Fortschritte in der Geolokalisierungsforschung voranzutreiben. Im Kern dieses Frameworks steht GeoComp (Geolocation Competition Dataset), ein groß angelegter Datensatz, der von einer Geolokalisierungs-Spielplattform gesammelt wurde und 740.000 Nutzer über zwei Jahre hinweg umfasst. Er besteht aus 25 Millionen Metadateneinträgen und 3 Millionen geotaggten Standorten, die einen Großteil des Globus abdecken, wobei jeder Standort tausend- bis zehntausendfach von menschlichen Nutzern annotiert wurde. Der Datensatz bietet unterschiedliche Schwierigkeitsgrade für detaillierte Analysen und hebt wesentliche Lücken in aktuellen Modellen hervor. Aufbauend auf diesem Datensatz schlagen wir Geographical Chain-of-Thought (GeoCoT) vor, ein neuartiges mehrstufiges Schlussfolgerungsframework, das darauf abzielt, die Fähigkeiten von Large Vision Models (LVMs) bei Geolokalisierungsaufgaben zu verbessern. GeoCoT steigert die Leistung, indem es kontextuelle und räumliche Hinweise durch einen mehrstufigen Prozess integriert, der die menschliche Geolokalisierungslogik nachahmt. Schließlich zeigen wir mit dem GeoEval-Maßstab, dass GeoCoT die Genauigkeit der Geolokalisierung um bis zu 25 % signifikant erhöht und gleichzeitig die Interpretierbarkeit verbessert.
English
Geolocation, the task of identifying an image's location, requires complex reasoning and is crucial for navigation, monitoring, and cultural preservation. However, current methods often produce coarse, imprecise, and non-interpretable localization. A major challenge lies in the quality and scale of existing geolocation datasets. These datasets are typically small-scale and automatically constructed, leading to noisy data and inconsistent task difficulty, with images that either reveal answers too easily or lack sufficient clues for reliable inference. To address these challenges, we introduce a comprehensive geolocation framework with three key components: GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval, an evaluation metric, collectively designed to address critical challenges and drive advancements in geolocation research. At the core of this framework is GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from a geolocation game platform involving 740K users over two years. It comprises 25 million entries of metadata and 3 million geo-tagged locations spanning much of the globe, with each location annotated thousands to tens of thousands of times by human users. The dataset offers diverse difficulty levels for detailed analysis and highlights key gaps in current models. Building on this dataset, we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning framework designed to enhance the reasoning capabilities of Large Vision Models (LVMs) in geolocation tasks. GeoCoT improves performance by integrating contextual and spatial cues through a multi-step process that mimics human geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing interpretability.

Summary

AI-Generated Summary

PDF42February 21, 2025