Contrôle granulaire de la confidentialité pour la géolocalisation avec des modèles de langage visuel
Granular Privacy Control for Geolocation with Vision Language Models
July 6, 2024
Auteurs: Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI
Résumé
Les modèles de vision et langage (VLMs) progressent rapidement dans leur capacité à répondre à des questions de recherche d'information. Alors que ces modèles sont largement déployés dans des applications grand public, ils pourraient engendrer de nouveaux risques pour la vie privée en raison de leurs capacités émergentes à identifier des personnes sur des photos, à géolocaliser des images, etc. Comme nous le démontrons, de manière quelque peu surprenante, les VLMs open-source et propriétaires actuels sont très performants en matière de géolocalisation d'images, faisant de la géolocalisation généralisée via les VLMs un risque immédiat pour la vie privée, plutôt qu'une simple préoccupation théorique future. Pour relever ce défi, nous développons un nouveau benchmark, GPTGeoChat, afin de tester la capacité des VLMs à modérer les dialogues de géolocalisation avec les utilisateurs. Nous collectons un ensemble de 1 000 conversations de géolocalisation d'images entre des annotateurs internes et GPT-4v, annotées avec la granularité des informations de localisation révélées à chaque tour. En utilisant ce nouveau jeu de données, nous évaluons la capacité de divers VLMs à modérer les conversations de géolocalisation de GPT-4v en déterminant quand trop d'informations de localisation ont été divulguées. Nous constatons que les modèles personnalisés fine-tunés performaient aussi bien que les modèles basés sur des API avec prompts pour identifier les fuites d'informations de localisation au niveau du pays ou de la ville ; cependant, un fine-tuning sur des données supervisées semble nécessaire pour modérer avec précision des granularités plus fines, comme le nom d'un restaurant ou d'un bâtiment.
English
Vision Language Models (VLMs) are rapidly advancing in their capability to
answer information-seeking questions. As these models are widely deployed in
consumer applications, they could lead to new privacy risks due to emergent
abilities to identify people in photos, geolocate images, etc. As we
demonstrate, somewhat surprisingly, current open-source and proprietary VLMs
are very capable image geolocators, making widespread geolocation with VLMs an
immediate privacy risk, rather than merely a theoretical future concern. As a
first step to address this challenge, we develop a new benchmark, GPTGeoChat,
to test the ability of VLMs to moderate geolocation dialogues with users. We
collect a set of 1,000 image geolocation conversations between in-house
annotators and GPT-4v, which are annotated with the granularity of location
information revealed at each turn. Using this new dataset, we evaluate the
ability of various VLMs to moderate GPT-4v geolocation conversations by
determining when too much location information has been revealed. We find that
custom fine-tuned models perform on par with prompted API-based models when
identifying leaked location information at the country or city level; however,
fine-tuning on supervised data appears to be needed to accurately moderate
finer granularities, such as the name of a restaurant or building.Summary
AI-Generated Summary