Gedetailleerde privacycontrole voor geolocatie met Vision Language Models
Granular Privacy Control for Geolocation with Vision Language Models
July 6, 2024
Auteurs: Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI
Samenvatting
Vision Language Models (VLMs) maken snel vooruitgang in hun vermogen om informatiezoekende vragen te beantwoorden. Omdat deze modellen op grote schaal worden ingezet in consumententoepassingen, kunnen ze leiden tot nieuwe privacyrisico's vanwege opkomende mogelijkheden om mensen op foto's te identificeren, afbeeldingen te geoloceren, enzovoort. Zoals we aantonen, zijn huidige open-source en propriëtaire VLMs, enigszins verrassend, zeer capabele beeldgeolocators, waardoor wijdverspreide geolocatie met VLMs een direct privacyrisico vormt, in plaats van slechts een theoretische toekomstige zorg. Als eerste stap om deze uitdaging aan te pakken, ontwikkelen we een nieuwe benchmark, GPTGeoChat, om het vermogen van VLMs te testen om geolocatiedialogen met gebruikers te modereren. We verzamelen een set van 1.000 beeldgeolocatiegesprekken tussen interne annotators en GPT-4v, die zijn geannoteerd met de granulariteit van locatie-informatie die bij elke beurt wordt onthuld. Met behulp van deze nieuwe dataset evalueren we het vermogen van verschillende VLMs om GPT-4v-geolocatiegesprekken te modereren door te bepalen wanneer te veel locatie-informatie is onthuld. We constateren dat aangepaste, fijn afgestemde modellen even goed presteren als geprompte API-gebaseerde modellen bij het identificeren van gelekt locatie-informatie op het niveau van land of stad; voor het nauwkeurig modereren van fijnere granulariteiten, zoals de naam van een restaurant of gebouw, lijkt echter fijnafstemming op begeleide data nodig te zijn.
English
Vision Language Models (VLMs) are rapidly advancing in their capability to
answer information-seeking questions. As these models are widely deployed in
consumer applications, they could lead to new privacy risks due to emergent
abilities to identify people in photos, geolocate images, etc. As we
demonstrate, somewhat surprisingly, current open-source and proprietary VLMs
are very capable image geolocators, making widespread geolocation with VLMs an
immediate privacy risk, rather than merely a theoretical future concern. As a
first step to address this challenge, we develop a new benchmark, GPTGeoChat,
to test the ability of VLMs to moderate geolocation dialogues with users. We
collect a set of 1,000 image geolocation conversations between in-house
annotators and GPT-4v, which are annotated with the granularity of location
information revealed at each turn. Using this new dataset, we evaluate the
ability of various VLMs to moderate GPT-4v geolocation conversations by
determining when too much location information has been revealed. We find that
custom fine-tuned models perform on par with prompted API-based models when
identifying leaked location information at the country or city level; however,
fine-tuning on supervised data appears to be needed to accurately moderate
finer granularities, such as the name of a restaurant or building.