ChatPaper.aiChatPaper

Géolocalisation avec des Données Réelles de Jeu Humain : Un Jeu de Données à Grande Échelle et un Cadre de Raisonnement Similaire à l'Humain

Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

February 19, 2025
Auteurs: Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
cs.AI

Résumé

La géolocalisation, qui consiste à identifier l'emplacement d'une image, nécessite un raisonnement complexe et est cruciale pour la navigation, la surveillance et la préservation culturelle. Cependant, les méthodes actuelles produisent souvent des localisations approximatives, imprécises et peu interprétables. Un défi majeur réside dans la qualité et l'échelle des ensembles de données de géolocalisation existants. Ces ensembles de données sont généralement de petite taille et construits automatiquement, ce qui entraîne des données bruyantes et une difficulté de tâche incohérente, avec des images qui révèlent trop facilement les réponses ou manquent d'indices suffisants pour une inférence fiable. Pour relever ces défis, nous introduisons un cadre complet de géolocalisation avec trois composants clés : GeoComp, un ensemble de données à grande échelle ; GeoCoT, une nouvelle méthode de raisonnement ; et GeoEval, une métrique d'évaluation, conçus ensemble pour répondre aux défis critiques et faire progresser la recherche en géolocalisation. Au cœur de ce cadre se trouve GeoComp (Geolocation Competition Dataset), un ensemble de données à grande échelle collecté à partir d'une plateforme de jeu de géolocalisation impliquant 740 000 utilisateurs sur deux ans. Il comprend 25 millions d'entrées de métadonnées et 3 millions d'emplacements géolocalisés couvrant une grande partie du globe, chaque emplacement étant annoté des milliers à des dizaines de milliers de fois par des utilisateurs humains. L'ensemble de données offre des niveaux de difficulté variés pour une analyse détaillée et met en lumière les lacunes clés des modèles actuels. S'appuyant sur cet ensemble de données, nous proposons Geographical Chain-of-Thought (GeoCoT), un nouveau cadre de raisonnement en plusieurs étapes conçu pour améliorer les capacités de raisonnement des grands modèles de vision (LVMs) dans les tâches de géolocalisation. GeoCoT améliore les performances en intégrant des indices contextuels et spatiaux à travers un processus en plusieurs étapes qui imite le raisonnement humain de géolocalisation. Enfin, en utilisant la métrique GeoEval, nous démontrons que GeoCoT augmente significativement la précision de la géolocalisation jusqu'à 25 % tout en améliorant l'interprétabilité.
English
Geolocation, the task of identifying an image's location, requires complex reasoning and is crucial for navigation, monitoring, and cultural preservation. However, current methods often produce coarse, imprecise, and non-interpretable localization. A major challenge lies in the quality and scale of existing geolocation datasets. These datasets are typically small-scale and automatically constructed, leading to noisy data and inconsistent task difficulty, with images that either reveal answers too easily or lack sufficient clues for reliable inference. To address these challenges, we introduce a comprehensive geolocation framework with three key components: GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval, an evaluation metric, collectively designed to address critical challenges and drive advancements in geolocation research. At the core of this framework is GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from a geolocation game platform involving 740K users over two years. It comprises 25 million entries of metadata and 3 million geo-tagged locations spanning much of the globe, with each location annotated thousands to tens of thousands of times by human users. The dataset offers diverse difficulty levels for detailed analysis and highlights key gaps in current models. Building on this dataset, we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning framework designed to enhance the reasoning capabilities of Large Vision Models (LVMs) in geolocation tasks. GeoCoT improves performance by integrating contextual and spatial cues through a multi-step process that mimics human geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing interpretability.

Summary

AI-Generated Summary

PDF42February 21, 2025