ChatPaper.aiChatPaper

Geolocatie met Echte Menselijke Speldata: Een Grootschalige Dataset en een Mensachtig Redeneerframework

Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

February 19, 2025
Auteurs: Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
cs.AI

Samenvatting

Geolocatie, de taak om de locatie van een afbeelding te identificeren, vereist complexe redenering en is cruciaal voor navigatie, monitoring en cultureel behoud. Huidige methoden leveren echter vaak grove, onnauwkeurige en niet-interpreteerbare lokalisaties op. Een grote uitdaging ligt in de kwaliteit en schaal van bestaande geolocatiedatasets. Deze datasets zijn meestal kleinschalig en automatisch samengesteld, wat leidt tot rommelige data en inconsistente taakmoeilijkheid, waarbij afbeeldingen ofwel te gemakkelijk antwoorden verraden ofwel onvoldoende aanwijzingen bevatten voor betrouwbare inferentie. Om deze uitdagingen aan te pakken, introduceren we een uitgebreid geolocatieraamwerk met drie kerncomponenten: GeoComp, een grootschalige dataset; GeoCoT, een nieuwe redeneermethode; en GeoEval, een evaluatiemetriek, gezamenlijk ontworpen om kritieke uitdagingen aan te pakken en vooruitgang in geolocatieonderzoek te stimuleren. De kern van dit raamwerk is GeoComp (Geolocation Competition Dataset), een grootschalige dataset verzameld van een geolocatiespelplatform met 740K gebruikers over twee jaar. Het bevat 25 miljoen metadata-invoeren en 3 miljoen geo-getagde locaties die een groot deel van de wereld beslaan, waarbij elke locatie duizenden tot tienduizenden keren is geannoteerd door menselijke gebruikers. De dataset biedt diverse moeilijkheidsgraden voor gedetailleerde analyse en benadrukt belangrijke tekortkomingen in huidige modellen. Op basis van deze dataset stellen we Geographical Chain-of-Thought (GeoCoT) voor, een nieuw meerstappen redeneerraamwerk ontworpen om de redeneercapaciteiten van Large Vision Models (LVMs) in geolocatietaken te verbeteren. GeoCoT verbetert de prestaties door contextuele en ruimtelijke aanwijzingen te integreren via een meerstappenproces dat menselijke geolocatieredenering nabootst. Ten slotte tonen we met de GeoEval-metriek aan dat GeoCoT de geolocatienauwkeurigheid met tot wel 25% verhoogt, terwijl de interpreteerbaarheid wordt verbeterd.
English
Geolocation, the task of identifying an image's location, requires complex reasoning and is crucial for navigation, monitoring, and cultural preservation. However, current methods often produce coarse, imprecise, and non-interpretable localization. A major challenge lies in the quality and scale of existing geolocation datasets. These datasets are typically small-scale and automatically constructed, leading to noisy data and inconsistent task difficulty, with images that either reveal answers too easily or lack sufficient clues for reliable inference. To address these challenges, we introduce a comprehensive geolocation framework with three key components: GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval, an evaluation metric, collectively designed to address critical challenges and drive advancements in geolocation research. At the core of this framework is GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from a geolocation game platform involving 740K users over two years. It comprises 25 million entries of metadata and 3 million geo-tagged locations spanning much of the globe, with each location annotated thousands to tens of thousands of times by human users. The dataset offers diverse difficulty levels for detailed analysis and highlights key gaps in current models. Building on this dataset, we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning framework designed to enhance the reasoning capabilities of Large Vision Models (LVMs) in geolocation tasks. GeoCoT improves performance by integrating contextual and spatial cues through a multi-step process that mimics human geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing interpretability.

Summary

AI-Generated Summary

PDF42February 21, 2025