Control de privacidad granular para geolocalización con modelos de lenguaje visual
Granular Privacy Control for Geolocation with Vision Language Models
July 6, 2024
Autores: Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI
Resumen
Los Modelos de Lenguaje Visual (VLMs) están avanzando rápidamente en su capacidad para responder preguntas de búsqueda de información. Dado que estos modelos se despliegan ampliamente en aplicaciones de consumo, podrían dar lugar a nuevos riesgos de privacidad debido a las capacidades emergentes para identificar personas en fotos, geolocalizar imágenes, etc. Como demostramos, de manera algo sorprendente, los actuales VLMs de código abierto y propietarios son localizadores de imágenes muy capaces, lo que convierte a la geolocalización generalizada con VLMs en un riesgo de privacidad inmediato, en lugar de ser simplemente una preocupación teórica futura. Como primer paso para abordar este desafío, desarrollamos un nuevo punto de referencia, GPTGeoChat, para probar la capacidad de los VLMs para moderar diálogos de geolocalización con usuarios. Recopilamos un conjunto de 1,000 conversaciones de geolocalización de imágenes entre anotadores internos y GPT-4v, que están anotadas con la granularidad de la información de ubicación revelada en cada turno. Utilizando este nuevo conjunto de datos, evaluamos la capacidad de varios VLMs para moderar las conversaciones de geolocalización de GPT-4v al determinar cuándo se ha revelado demasiada información de ubicación. Descubrimos que los modelos personalizados ajustados funcionan al mismo nivel que los modelos basados en API cuando se identifica información de ubicación filtrada a nivel de país o ciudad; sin embargo, parece ser necesario el ajuste fino en datos supervisados para moderar con precisión granularidades más finas, como el nombre de un restaurante o edificio.
English
Vision Language Models (VLMs) are rapidly advancing in their capability to
answer information-seeking questions. As these models are widely deployed in
consumer applications, they could lead to new privacy risks due to emergent
abilities to identify people in photos, geolocate images, etc. As we
demonstrate, somewhat surprisingly, current open-source and proprietary VLMs
are very capable image geolocators, making widespread geolocation with VLMs an
immediate privacy risk, rather than merely a theoretical future concern. As a
first step to address this challenge, we develop a new benchmark, GPTGeoChat,
to test the ability of VLMs to moderate geolocation dialogues with users. We
collect a set of 1,000 image geolocation conversations between in-house
annotators and GPT-4v, which are annotated with the granularity of location
information revealed at each turn. Using this new dataset, we evaluate the
ability of various VLMs to moderate GPT-4v geolocation conversations by
determining when too much location information has been revealed. We find that
custom fine-tuned models perform on par with prompted API-based models when
identifying leaked location information at the country or city level; however,
fine-tuning on supervised data appears to be needed to accurately moderate
finer granularities, such as the name of a restaurant or building.Summary
AI-Generated Summary