Geolocatie met Echte Menselijke Speldata: Een Grootschalige Dataset en een Mensachtig Redeneerframework
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework
February 19, 2025
Auteurs: Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
cs.AI
Samenvatting
Geolocatie, de taak om de locatie van een afbeelding te identificeren, vereist complexe redenering en is cruciaal voor navigatie, monitoring en cultureel behoud. Huidige methoden leveren echter vaak grove, onnauwkeurige en niet-interpreteerbare lokalisaties op. Een grote uitdaging ligt in de kwaliteit en schaal van bestaande geolocatiedatasets. Deze datasets zijn meestal kleinschalig en automatisch samengesteld, wat leidt tot rommelige data en inconsistente taakmoeilijkheid, waarbij afbeeldingen ofwel te gemakkelijk antwoorden verraden ofwel onvoldoende aanwijzingen bevatten voor betrouwbare inferentie. Om deze uitdagingen aan te pakken, introduceren we een uitgebreid geolocatieraamwerk met drie kerncomponenten: GeoComp, een grootschalige dataset; GeoCoT, een nieuwe redeneermethode; en GeoEval, een evaluatiemetriek, gezamenlijk ontworpen om kritieke uitdagingen aan te pakken en vooruitgang in geolocatieonderzoek te stimuleren. De kern van dit raamwerk is GeoComp (Geolocation Competition Dataset), een grootschalige dataset verzameld van een geolocatiespelplatform met 740K gebruikers over twee jaar. Het bevat 25 miljoen metadata-invoeren en 3 miljoen geo-getagde locaties die een groot deel van de wereld beslaan, waarbij elke locatie duizenden tot tienduizenden keren is geannoteerd door menselijke gebruikers. De dataset biedt diverse moeilijkheidsgraden voor gedetailleerde analyse en benadrukt belangrijke tekortkomingen in huidige modellen. Op basis van deze dataset stellen we Geographical Chain-of-Thought (GeoCoT) voor, een nieuw meerstappen redeneerraamwerk ontworpen om de redeneercapaciteiten van Large Vision Models (LVMs) in geolocatietaken te verbeteren. GeoCoT verbetert de prestaties door contextuele en ruimtelijke aanwijzingen te integreren via een meerstappenproces dat menselijke geolocatieredenering nabootst. Ten slotte tonen we met de GeoEval-metriek aan dat GeoCoT de geolocatienauwkeurigheid met tot wel 25% verhoogt, terwijl de interpreteerbaarheid wordt verbeterd.
English
Geolocation, the task of identifying an image's location, requires complex
reasoning and is crucial for navigation, monitoring, and cultural preservation.
However, current methods often produce coarse, imprecise, and non-interpretable
localization. A major challenge lies in the quality and scale of existing
geolocation datasets. These datasets are typically small-scale and
automatically constructed, leading to noisy data and inconsistent task
difficulty, with images that either reveal answers too easily or lack
sufficient clues for reliable inference. To address these challenges, we
introduce a comprehensive geolocation framework with three key components:
GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval,
an evaluation metric, collectively designed to address critical challenges and
drive advancements in geolocation research. At the core of this framework is
GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from
a geolocation game platform involving 740K users over two years. It comprises
25 million entries of metadata and 3 million geo-tagged locations spanning much
of the globe, with each location annotated thousands to tens of thousands of
times by human users. The dataset offers diverse difficulty levels for detailed
analysis and highlights key gaps in current models. Building on this dataset,
we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning
framework designed to enhance the reasoning capabilities of Large Vision Models
(LVMs) in geolocation tasks. GeoCoT improves performance by integrating
contextual and spatial cues through a multi-step process that mimics human
geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that
GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing
interpretability.Summary
AI-Generated Summary