ChatPaper.aiChatPaper

NAVIG: Анализ с использованием моделей "визуальный язык" с управлением на естественном языке для геолокации изображений

NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

February 20, 2025
Авторы: Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
cs.AI

Аннотация

Геолокация изображений — это задача предсказания точного местоположения изображения, требующая сложного анализа визуального, географического и культурного контекстов. Хотя современные модели обработки изображений и текста (Vision Language Models, VLMs) демонстрируют наивысшую точность в этой задаче, существует недостаток высококачественных наборов данных и моделей для аналитического рассуждения. Мы создаем NaviClues — высококачественный набор данных, основанный на GeoGuessr, популярной географической игре, чтобы предоставить примеры экспертного анализа на основе текста. Используя этот набор данных, мы представляем Navig — комплексную структуру для геолокации изображений, которая интегрирует глобальную и детализированную информацию об изображении. Благодаря анализу с использованием текста, Navig снижает среднюю ошибку расстояния на 14% по сравнению с предыдущими передовыми моделями, при этом требуя менее 1000 обучающих примеров. Наш набор данных и код доступны по адресу https://github.com/SparrowZheyuan18/Navig/.
English
Image geo-localization is the task of predicting the specific location of an image and requires complex reasoning across visual, geographical, and cultural contexts. While prior Vision Language Models (VLMs) have the best accuracy at this task, there is a dearth of high-quality datasets and models for analytical reasoning. We first create NaviClues, a high-quality dataset derived from GeoGuessr, a popular geography game, to supply examples of expert reasoning from language. Using this dataset, we present Navig, a comprehensive image geo-localization framework integrating global and fine-grained image information. By reasoning with language, Navig reduces the average distance error by 14% compared to previous state-of-the-art models while requiring fewer than 1000 training samples. Our dataset and code are available at https://github.com/SparrowZheyuan18/Navig/.

Summary

AI-Generated Summary

PDF112February 21, 2025