ChatPaper.aiChatPaper

Geolocalização com Dados Reais de Jogabilidade Humana: Um Conjunto de Dados em Grande Escala e um Framework de Raciocínio Semelhante ao Humano

Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

February 19, 2025
Autores: Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
cs.AI

Resumo

Geolocalização, a tarefa de identificar a localização de uma imagem, requer raciocínio complexo e é crucial para navegação, monitoramento e preservação cultural. No entanto, os métodos atuais frequentemente produzem localizações grosseiras, imprecisas e não interpretáveis. Um grande desafio reside na qualidade e escala dos conjuntos de dados de geolocalização existentes. Esses conjuntos de dados são tipicamente de pequena escala e construídos automaticamente, resultando em dados ruidosos e dificuldade de tarefa inconsistente, com imagens que ou revelam respostas de forma muito fácil ou carecem de pistas suficientes para inferência confiável. Para enfrentar esses desafios, introduzimos um framework abrangente de geolocalização com três componentes principais: GeoComp, um conjunto de dados em larga escala; GeoCoT, um novo método de raciocínio; e GeoEval, uma métrica de avaliação, projetados coletivamente para abordar desafios críticos e impulsionar avanços na pesquisa de geolocalização. No cerne desse framework está o GeoComp (Geolocation Competition Dataset), um conjunto de dados em larga escala coletado de uma plataforma de jogo de geolocalização envolvendo 740 mil usuários ao longo de dois anos. Ele compreende 25 milhões de entradas de metadados e 3 milhões de localizações geoetiquetadas abrangendo grande parte do globo, com cada localização anotada milhares a dezenas de milhares de vezes por usuários humanos. O conjunto de dados oferece níveis diversos de dificuldade para análise detalhada e destaca lacunas importantes nos modelos atuais. Com base nesse conjunto de dados, propomos o Geographical Chain-of-Thought (GeoCoT), um novo framework de raciocínio em múltiplas etapas projetado para aprimorar as capacidades de raciocínio de Large Vision Models (LVMs) em tarefas de geolocalização. O GeoCoT melhora o desempenho ao integrar pistas contextuais e espaciais por meio de um processo de múltiplas etapas que imita o raciocínio humano de geolocalização. Por fim, utilizando a métrica GeoEval, demonstramos que o GeoCoT aumenta significativamente a precisão da geolocalização em até 25%, ao mesmo tempo em que melhora a interpretabilidade.
English
Geolocation, the task of identifying an image's location, requires complex reasoning and is crucial for navigation, monitoring, and cultural preservation. However, current methods often produce coarse, imprecise, and non-interpretable localization. A major challenge lies in the quality and scale of existing geolocation datasets. These datasets are typically small-scale and automatically constructed, leading to noisy data and inconsistent task difficulty, with images that either reveal answers too easily or lack sufficient clues for reliable inference. To address these challenges, we introduce a comprehensive geolocation framework with three key components: GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval, an evaluation metric, collectively designed to address critical challenges and drive advancements in geolocation research. At the core of this framework is GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from a geolocation game platform involving 740K users over two years. It comprises 25 million entries of metadata and 3 million geo-tagged locations spanning much of the globe, with each location annotated thousands to tens of thousands of times by human users. The dataset offers diverse difficulty levels for detailed analysis and highlights key gaps in current models. Building on this dataset, we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning framework designed to enhance the reasoning capabilities of Large Vision Models (LVMs) in geolocation tasks. GeoCoT improves performance by integrating contextual and spatial cues through a multi-step process that mimics human geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing interpretability.

Summary

AI-Generated Summary

PDF42February 21, 2025