ChatPaper.aiChatPaper

비전 언어 모델을 활용한 지리적 위치 정보의 세분화된 개인정보 보호 제어

Granular Privacy Control for Geolocation with Vision Language Models

July 6, 2024
저자: Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI

초록

비전 언어 모델(VLMs)은 정보 탐색 질문에 답변하는 능력에서 빠르게 발전하고 있습니다. 이러한 모델들이 소비자 애플리케이션에 널리 배포됨에 따라, 사진 속 사람을 식별하거나 이미지의 지리적 위치를 파악하는 등의 새로운 능력으로 인해 프라이버시 위험이 발생할 수 있습니다. 우리가 보여주듯이, 다소 놀랍게도 현재의 오픈소스 및 독점 VLMs는 매우 유능한 이미지 지리적 위치 파악 도구로, VLMs를 통한 광범위한 지리적 위치 파악은 이론적인 미래의 우려가 아니라 즉각적인 프라이버시 위험으로 작용합니다. 이러한 문제를 해결하기 위한 첫 번째 단계로, 우리는 VLMs가 사용자와의 지리적 위치 대화를 조정하는 능력을 테스트하기 위한 새로운 벤치마크인 GPTGeoChat을 개발했습니다. 우리는 내부 주석자와 GPT-4v 간의 1,000개의 이미지 지리적 위치 대화를 수집했으며, 각 턴에서 드러난 위치 정보의 세분성을 주석으로 달았습니다. 이 새로운 데이터셋을 사용하여, 다양한 VLMs가 GPT-4v 지리적 위치 대화를 조정하는 능력을 평가했는데, 이는 너무 많은 위치 정보가 드러났을 때를 판단하는 능력을 포함합니다. 우리는 맞춤형 파인튜닝 모델들이 국가 또는 도시 수준에서 누출된 위치 정보를 식별할 때 프롬프트 기반 API 모델들과 동등한 성능을 보이는 것을 발견했습니다. 그러나, 레스토랑이나 건물 이름과 같은 더 세분화된 정보를 정확히 조정하기 위해서는 지도 학습 데이터에 대한 파인튜닝이 필요해 보입니다.
English
Vision Language Models (VLMs) are rapidly advancing in their capability to answer information-seeking questions. As these models are widely deployed in consumer applications, they could lead to new privacy risks due to emergent abilities to identify people in photos, geolocate images, etc. As we demonstrate, somewhat surprisingly, current open-source and proprietary VLMs are very capable image geolocators, making widespread geolocation with VLMs an immediate privacy risk, rather than merely a theoretical future concern. As a first step to address this challenge, we develop a new benchmark, GPTGeoChat, to test the ability of VLMs to moderate geolocation dialogues with users. We collect a set of 1,000 image geolocation conversations between in-house annotators and GPT-4v, which are annotated with the granularity of location information revealed at each turn. Using this new dataset, we evaluate the ability of various VLMs to moderate GPT-4v geolocation conversations by determining when too much location information has been revealed. We find that custom fine-tuned models perform on par with prompted API-based models when identifying leaked location information at the country or city level; however, fine-tuning on supervised data appears to be needed to accurately moderate finer granularities, such as the name of a restaurant or building.

Summary

AI-Generated Summary

PDF71November 28, 2024