NAVIG: Análisis Guiado por Lenguaje Natural con Modelos de Visión y Lenguaje para la Geo-localización de Imágenes
NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization
February 20, 2025
Autores: Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
cs.AI
Resumen
La geo-localización de imágenes es la tarea de predecir la ubicación específica de una imagen y requiere un razonamiento complejo que abarca contextos visuales, geográficos y culturales. Si bien los modelos previos de visión y lenguaje (VLMs) han logrado la mayor precisión en esta tarea, existe una escasez de conjuntos de datos y modelos de alta calidad para el razonamiento analítico. Primero, creamos NaviClues, un conjunto de datos de alta calidad derivado de GeoGuessr, un popular juego de geografía, para proporcionar ejemplos de razonamiento experto basado en lenguaje. Utilizando este conjunto de datos, presentamos Navig, un marco integral de geo-localización de imágenes que integra información global y detallada de las imágenes. Al razonar con lenguaje, Navig reduce el error de distancia promedio en un 14% en comparación con los modelos de última generación anteriores, mientras requiere menos de 1000 muestras de entrenamiento. Nuestro conjunto de datos y código están disponibles en https://github.com/SparrowZheyuan18/Navig/.
English
Image geo-localization is the task of predicting the specific location of an
image and requires complex reasoning across visual, geographical, and cultural
contexts. While prior Vision Language Models (VLMs) have the best accuracy at
this task, there is a dearth of high-quality datasets and models for analytical
reasoning. We first create NaviClues, a high-quality dataset derived from
GeoGuessr, a popular geography game, to supply examples of expert reasoning
from language. Using this dataset, we present Navig, a comprehensive image
geo-localization framework integrating global and fine-grained image
information. By reasoning with language, Navig reduces the average distance
error by 14% compared to previous state-of-the-art models while requiring fewer
than 1000 training samples. Our dataset and code are available at
https://github.com/SparrowZheyuan18/Navig/.Summary
AI-Generated Summary