Geolocalización con Datos de Juego de Humanos Reales: Un Conjunto de Datos a Gran Escala y un Marco de Razonamiento Similar al Humano
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework
February 19, 2025
Autores: Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
cs.AI
Resumen
La geolocalización, la tarea de identificar la ubicación de una imagen, requiere un razonamiento complejo y es crucial para la navegación, el monitoreo y la preservación cultural. Sin embargo, los métodos actuales suelen producir localizaciones imprecisas, poco detalladas y no interpretables. Un desafío importante radica en la calidad y escala de los conjuntos de datos de geolocalización existentes. Estos conjuntos de datos suelen ser de pequeña escala y construidos automáticamente, lo que genera datos ruidosos y una dificultad de tarea inconsistente, con imágenes que revelan respuestas demasiado fácilmente o carecen de pistas suficientes para una inferencia confiable. Para abordar estos desafíos, presentamos un marco integral de geolocalización con tres componentes clave: GeoComp, un conjunto de datos a gran escala; GeoCoT, un método de razonamiento novedoso; y GeoEval, una métrica de evaluación, diseñados colectivamente para abordar desafíos críticos e impulsar avances en la investigación de geolocalización. En el núcleo de este marco se encuentra GeoComp (Conjunto de Datos de Competencia de Geolocalización), un conjunto de datos a gran escala recopilado de una plataforma de juegos de geolocalización que involucró a 740 mil usuarios durante dos años. Este incluye 25 millones de entradas de metadatos y 3 millones de ubicaciones geoetiquetadas que abarcan gran parte del mundo, con cada ubicación anotada miles o decenas de miles de veces por usuarios humanos. El conjunto de datos ofrece diversos niveles de dificultad para un análisis detallado y resalta brechas clave en los modelos actuales. Basándonos en este conjunto de datos, proponemos Cadena de Pensamiento Geográfica (GeoCoT), un marco de razonamiento de múltiples pasos diseñado para mejorar las capacidades de razonamiento de los Modelos de Visión a Gran Escala (LVMs) en tareas de geolocalización. GeoCoT mejora el rendimiento al integrar pistas contextuales y espaciales a través de un proceso de múltiples pasos que imita el razonamiento humano de geolocalización. Finalmente, utilizando la métrica GeoEval, demostramos que GeoCoT aumenta significativamente la precisión de la geolocalización hasta en un 25%, al tiempo que mejora la interpretabilidad.
English
Geolocation, the task of identifying an image's location, requires complex
reasoning and is crucial for navigation, monitoring, and cultural preservation.
However, current methods often produce coarse, imprecise, and non-interpretable
localization. A major challenge lies in the quality and scale of existing
geolocation datasets. These datasets are typically small-scale and
automatically constructed, leading to noisy data and inconsistent task
difficulty, with images that either reveal answers too easily or lack
sufficient clues for reliable inference. To address these challenges, we
introduce a comprehensive geolocation framework with three key components:
GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval,
an evaluation metric, collectively designed to address critical challenges and
drive advancements in geolocation research. At the core of this framework is
GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from
a geolocation game platform involving 740K users over two years. It comprises
25 million entries of metadata and 3 million geo-tagged locations spanning much
of the globe, with each location annotated thousands to tens of thousands of
times by human users. The dataset offers diverse difficulty levels for detailed
analysis and highlights key gaps in current models. Building on this dataset,
we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning
framework designed to enhance the reasoning capabilities of Large Vision Models
(LVMs) in geolocation tasks. GeoCoT improves performance by integrating
contextual and spatial cues through a multi-step process that mimics human
geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that
GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing
interpretability.Summary
AI-Generated Summary