NAVIG: Análise Guiada por Linguagem Natural com Modelos de Visão e Linguagem para Geo-localização de Imagens
NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization
February 20, 2025
Autores: Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
cs.AI
Resumo
A geo-localização de imagens é a tarefa de prever a localização específica de uma imagem e requer raciocínio complexo em contextos visuais, geográficos e culturais. Embora os modelos de visão e linguagem (VLMs) anteriores tenham a melhor precisão nessa tarefa, há uma escassez de conjuntos de dados e modelos de alta qualidade para raciocínio analítico. Primeiro, criamos o NaviClues, um conjunto de dados de alta qualidade derivado do GeoGuessr, um popular jogo de geografia, para fornecer exemplos de raciocínio especializado a partir da linguagem. Usando esse conjunto de dados, apresentamos o Navig, um framework abrangente de geo-localização de imagens que integra informações globais e detalhadas da imagem. Ao raciocinar com a linguagem, o Navig reduz o erro médio de distância em 14% em comparação com os modelos state-of-the-art anteriores, enquanto requer menos de 1000 amostras de treinamento. Nosso conjunto de dados e código estão disponíveis em https://github.com/SparrowZheyuan18/Navig/.
English
Image geo-localization is the task of predicting the specific location of an
image and requires complex reasoning across visual, geographical, and cultural
contexts. While prior Vision Language Models (VLMs) have the best accuracy at
this task, there is a dearth of high-quality datasets and models for analytical
reasoning. We first create NaviClues, a high-quality dataset derived from
GeoGuessr, a popular geography game, to supply examples of expert reasoning
from language. Using this dataset, we present Navig, a comprehensive image
geo-localization framework integrating global and fine-grained image
information. By reasoning with language, Navig reduces the average distance
error by 14% compared to previous state-of-the-art models while requiring fewer
than 1000 training samples. Our dataset and code are available at
https://github.com/SparrowZheyuan18/Navig/.Summary
AI-Generated Summary