Геолокация на основе реальных игровых данных: крупномасштабный набор данных и фреймворк для человеко-подобного рассуждения
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework
February 19, 2025
Авторы: Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
cs.AI
Аннотация
Геолокация, задача определения местоположения изображения, требует сложного анализа и имеет важное значение для навигации, мониторинга и сохранения культурного наследия. Однако современные методы часто дают грубые, неточные и неинтерпретируемые результаты локализации. Основная проблема заключается в качестве и масштабе существующих наборов данных для геолокации. Эти наборы данных обычно имеют небольшой масштаб и создаются автоматически, что приводит к зашумленным данным и неоднородной сложности задач, где изображения либо слишком легко раскрывают ответы, либо не содержат достаточных подсказок для надежного вывода. Для решения этих проблем мы представляем комплексную структуру геолокации с тремя ключевыми компонентами: GeoComp — крупномасштабный набор данных; GeoCoT — новый метод рассуждений; и GeoEval — метрика оценки, которые вместе разработаны для преодоления ключевых вызовов и продвижения исследований в области геолокации. В основе этой структуры лежит GeoComp (Geolocation Competition Dataset), крупномасштабный набор данных, собранный с платформы игры на геолокацию, в которой участвовали 740 тысяч пользователей в течение двух лет. Он включает 25 миллионов записей метаданных и 3 миллиона геотегов, охватывающих большую часть земного шара, причем каждое местоположение аннотировано тысячами или десятками тысяч раз пользователями. Набор данных предлагает различные уровни сложности для детального анализа и выявляет ключевые пробелы в современных моделях. На основе этого набора данных мы предлагаем Geographical Chain-of-Thought (GeoCoT), новую многошаговую структуру рассуждений, предназначенную для улучшения аналитических способностей крупных визуальных моделей (Large Vision Models, LVMs) в задачах геолокации. GeoCoT повышает производительность, интегрируя контекстуальные и пространственные подсказки через многошаговый процесс, имитирующий человеческое рассуждение при геолокации. Наконец, с использованием метрики GeoEval мы демонстрируем, что GeoCoT значительно повышает точность геолокации до 25%, одновременно улучшая интерпретируемость.
English
Geolocation, the task of identifying an image's location, requires complex
reasoning and is crucial for navigation, monitoring, and cultural preservation.
However, current methods often produce coarse, imprecise, and non-interpretable
localization. A major challenge lies in the quality and scale of existing
geolocation datasets. These datasets are typically small-scale and
automatically constructed, leading to noisy data and inconsistent task
difficulty, with images that either reveal answers too easily or lack
sufficient clues for reliable inference. To address these challenges, we
introduce a comprehensive geolocation framework with three key components:
GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval,
an evaluation metric, collectively designed to address critical challenges and
drive advancements in geolocation research. At the core of this framework is
GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from
a geolocation game platform involving 740K users over two years. It comprises
25 million entries of metadata and 3 million geo-tagged locations spanning much
of the globe, with each location annotated thousands to tens of thousands of
times by human users. The dataset offers diverse difficulty levels for detailed
analysis and highlights key gaps in current models. Building on this dataset,
we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning
framework designed to enhance the reasoning capabilities of Large Vision Models
(LVMs) in geolocation tasks. GeoCoT improves performance by integrating
contextual and spatial cues through a multi-step process that mimics human
geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that
GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing
interpretability.Summary
AI-Generated Summary