NAVIG: Análise Guiada por Linguagem Natural com Modelos de Visão e Linguagem para Geo-localização de Imagens

Resumo

A geo-localização de imagens é a tarefa de prever a localização específica de uma imagem e requer raciocínio complexo em contextos visuais, geográficos e culturais. Embora os modelos de visão e linguagem (VLMs) anteriores tenham a melhor precisão nessa tarefa, há uma escassez de conjuntos de dados e modelos de alta qualidade para raciocínio analítico. Primeiro, criamos o NaviClues, um conjunto de dados de alta qualidade derivado do GeoGuessr, um popular jogo de geografia, para fornecer exemplos de raciocínio especializado a partir da linguagem. Usando esse conjunto de dados, apresentamos o Navig, um framework abrangente de geo-localização de imagens que integra informações globais e detalhadas da imagem. Ao raciocinar com a linguagem, o Navig reduz o erro médio de distância em 14% em comparação com os modelos state-of-the-art anteriores, enquanto requer menos de 1000 amostras de treinamento. Nosso conjunto de dados e código estão disponíveis em https://github.com/SparrowZheyuan18/Navig/.

English

Image geo-localization is the task of predicting the specific location of an image and requires complex reasoning across visual, geographical, and cultural contexts. While prior Vision Language Models (VLMs) have the best accuracy at this task, there is a dearth of high-quality datasets and models for analytical reasoning. We first create NaviClues, a high-quality dataset derived from GeoGuessr, a popular geography game, to supply examples of expert reasoning from language. Using this dataset, we present Navig, a comprehensive image geo-localization framework integrating global and fine-grained image information. By reasoning with language, Navig reduces the average distance error by 14% compared to previous state-of-the-art models while requiring fewer than 1000 training samples. Our dataset and code are available at https://github.com/SparrowZheyuan18/Navig/.

NAVIG: Análise Guiada por Linguagem Natural com Modelos de Visão e Linguagem para Geo-localização de Imagens

NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

Resumo

Support