ChatPaper.aiChatPaper

Controle de Privacidade Granular para Geolocalização com Modelos de Linguagem Visual

Granular Privacy Control for Geolocation with Vision Language Models

July 6, 2024
Autores: Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI

Resumo

Os Modelos de Linguagem Visual (VLMs) estão avançando rapidamente em sua capacidade de responder a perguntas em busca de informações. Como esses modelos são amplamente utilizados em aplicações de consumo, eles poderiam levar a novos riscos de privacidade devido às habilidades emergentes de identificar pessoas em fotos, geolocalizar imagens, etc. Como demonstramos, de forma um tanto surpreendente, os atuais VLMs de código aberto e proprietários são geolocalizadores de imagem muito capazes, tornando a geolocalização generalizada com VLMs um risco imediato à privacidade, em vez de ser apenas uma preocupação teórica futura. Como primeiro passo para enfrentar esse desafio, desenvolvemos um novo benchmark, GPTGeoChat, para testar a capacidade dos VLMs de moderar diálogos de geolocalização com usuários. Coletamos um conjunto de 1.000 conversas de geolocalização de imagens entre anotadores internos e GPT-4v, que são anotadas com a granularidade das informações de localização reveladas em cada turno. Usando este novo conjunto de dados, avaliamos a capacidade de vários VLMs de moderar as conversas de geolocalização do GPT-4v, determinando quando muitas informações de localização foram reveladas. Descobrimos que modelos personalizados ajustados apresentam desempenho semelhante aos modelos baseados em API quando identificam informações de localização vazadas no nível do país ou da cidade; no entanto, o ajuste fino em dados supervisionados parece ser necessário para moderar com precisão granularidades mais finas, como o nome de um restaurante ou edifício.
English
Vision Language Models (VLMs) are rapidly advancing in their capability to answer information-seeking questions. As these models are widely deployed in consumer applications, they could lead to new privacy risks due to emergent abilities to identify people in photos, geolocate images, etc. As we demonstrate, somewhat surprisingly, current open-source and proprietary VLMs are very capable image geolocators, making widespread geolocation with VLMs an immediate privacy risk, rather than merely a theoretical future concern. As a first step to address this challenge, we develop a new benchmark, GPTGeoChat, to test the ability of VLMs to moderate geolocation dialogues with users. We collect a set of 1,000 image geolocation conversations between in-house annotators and GPT-4v, which are annotated with the granularity of location information revealed at each turn. Using this new dataset, we evaluate the ability of various VLMs to moderate GPT-4v geolocation conversations by determining when too much location information has been revealed. We find that custom fine-tuned models perform on par with prompted API-based models when identifying leaked location information at the country or city level; however, fine-tuning on supervised data appears to be needed to accurately moderate finer granularities, such as the name of a restaurant or building.
PDF71November 28, 2024