Geolocalizzazione con Dati Reali di Gameplay Umano: Un Ampio Dataset e un Framework di Ragionamento Simile a Quello Umano
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework
February 19, 2025
Autori: Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
cs.AI
Abstract
La geolocalizzazione, il compito di identificare la posizione di un'immagine, richiede un ragionamento complesso ed è cruciale per la navigazione, il monitoraggio e la preservazione culturale. Tuttavia, i metodi attuali spesso producono localizzazioni approssimative, imprecise e non interpretabili. Una delle principali sfide risiede nella qualità e nella scala dei dataset di geolocalizzazione esistenti. Questi dataset sono tipicamente di piccole dimensioni e costruiti automaticamente, portando a dati rumorosi e a una difficoltà del compito inconsistente, con immagini che rivelano le risposte troppo facilmente o che mancano di indizi sufficienti per un'inferenza affidabile. Per affrontare queste sfide, introduciamo un framework completo di geolocalizzazione con tre componenti chiave: GeoComp, un dataset su larga scala; GeoCoT, un nuovo metodo di ragionamento; e GeoEval, una metrica di valutazione, progettati collettivamente per affrontare le sfide critiche e promuovere progressi nella ricerca sulla geolocalizzazione. Al centro di questo framework c'è GeoComp (Geolocation Competition Dataset), un dataset su larga scala raccolto da una piattaforma di giochi di geolocalizzazione che coinvolge 740.000 utenti in due anni. Comprende 25 milioni di voci di metadati e 3 milioni di localizzazioni geotaggate che coprono gran parte del globo, con ciascuna localizzazione annotata migliaia o decine di migliaia di volte da utenti umani. Il dataset offre diversi livelli di difficoltà per un'analisi dettagliata e mette in evidenza le principali lacune dei modelli attuali. Basandoci su questo dataset, proponiamo Geographical Chain-of-Thought (GeoCoT), un innovativo framework di ragionamento multi-step progettato per migliorare le capacità di ragionamento dei Large Vision Models (LVM) nei compiti di geolocalizzazione. GeoCoT migliora le prestazioni integrando indizi contestuali e spaziali attraverso un processo multi-step che imita il ragionamento umano nella geolocalizzazione. Infine, utilizzando la metrica GeoEval, dimostriamo che GeoCoT aumenta significativamente l'accuratezza della geolocalizzazione fino al 25%, migliorando al contempo l'interpretabilità.
English
Geolocation, the task of identifying an image's location, requires complex
reasoning and is crucial for navigation, monitoring, and cultural preservation.
However, current methods often produce coarse, imprecise, and non-interpretable
localization. A major challenge lies in the quality and scale of existing
geolocation datasets. These datasets are typically small-scale and
automatically constructed, leading to noisy data and inconsistent task
difficulty, with images that either reveal answers too easily or lack
sufficient clues for reliable inference. To address these challenges, we
introduce a comprehensive geolocation framework with three key components:
GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval,
an evaluation metric, collectively designed to address critical challenges and
drive advancements in geolocation research. At the core of this framework is
GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from
a geolocation game platform involving 740K users over two years. It comprises
25 million entries of metadata and 3 million geo-tagged locations spanning much
of the globe, with each location annotated thousands to tens of thousands of
times by human users. The dataset offers diverse difficulty levels for detailed
analysis and highlights key gaps in current models. Building on this dataset,
we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning
framework designed to enhance the reasoning capabilities of Large Vision Models
(LVMs) in geolocation tasks. GeoCoT improves performance by integrating
contextual and spatial cues through a multi-step process that mimics human
geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that
GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing
interpretability.Summary
AI-Generated Summary