ChatPaper.aiChatPaper

Мелкий контроль конфиденциальности для геолокации с помощью языковых моделей на основе зрения.

Granular Privacy Control for Geolocation with Vision Language Models

July 6, 2024
Авторы: Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI

Аннотация

Модели языка для зрительных данных (VLM) быстро развиваются в своей способности отвечать на запросы информации. Поскольку эти модели широко применяются в потребительских приложениях, они могут привести к новым рискам конфиденциальности из-за возможности идентификации людей на фотографиях, геолокации изображений и т. д. Как показывается, довольно неожиданно, текущие открытые и проприетарные модели VLM обладают высокой способностью к геолокации изображений, что делает широкую геолокацию с использованием VLM немедленным риском конфиденциальности, а не просто теоретической заботой о будущем. В качестве первого шага к решению этой проблемы мы разрабатываем новый бенчмарк, GPTGeoChat, для проверки способности VLM модерировать диалоги о геолокации с пользователями. Мы собираем набор из 1 000 диалогов о геолокации изображений между внутренними аннотаторами и GPT-4v, которые аннотированы с точностью к информации о местоположении, раскрываемой на каждом ходу. Используя этот новый набор данных, мы оцениваем способность различных VLM модерировать диалоги о геолокации с GPT-4v, определяя, когда раскрывается слишком много информации о местоположении. Мы обнаруживаем, что индивидуальные модели с тонкой настройкой показывают результаты на уровне моделей, основанных на API, при идентификации утекшей информации о местоположении на уровне страны или города; однако для точной модерации более детальных уровней, таких как название ресторана или здания, кажется необходимой настройка на надзорные данные.
English
Vision Language Models (VLMs) are rapidly advancing in their capability to answer information-seeking questions. As these models are widely deployed in consumer applications, they could lead to new privacy risks due to emergent abilities to identify people in photos, geolocate images, etc. As we demonstrate, somewhat surprisingly, current open-source and proprietary VLMs are very capable image geolocators, making widespread geolocation with VLMs an immediate privacy risk, rather than merely a theoretical future concern. As a first step to address this challenge, we develop a new benchmark, GPTGeoChat, to test the ability of VLMs to moderate geolocation dialogues with users. We collect a set of 1,000 image geolocation conversations between in-house annotators and GPT-4v, which are annotated with the granularity of location information revealed at each turn. Using this new dataset, we evaluate the ability of various VLMs to moderate GPT-4v geolocation conversations by determining when too much location information has been revealed. We find that custom fine-tuned models perform on par with prompted API-based models when identifying leaked location information at the country or city level; however, fine-tuning on supervised data appears to be needed to accurately moderate finer granularities, such as the name of a restaurant or building.
PDF71November 28, 2024