ChatPaper.aiChatPaper

Controllo Granulare della Privacy per la Geolocalizzazione con Modelli Linguistico-Visivi

Granular Privacy Control for Geolocation with Vision Language Models

July 6, 2024
Autori: Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI

Abstract

I modelli linguistici visivi (VLMs) stanno facendo rapidi progressi nella capacità di rispondere a domande di ricerca di informazioni. Poiché questi modelli sono ampiamente utilizzati in applicazioni consumer, potrebbero portare a nuovi rischi per la privacy a causa di abilità emergenti come l'identificazione di persone nelle foto, la geolocalizzazione di immagini, ecc. Come dimostriamo, in modo piuttosto sorprendente, gli attuali VLMs open-source e proprietari sono molto abili nel geolocalizzare immagini, rendendo la geolocalizzazione diffusa con VLMs un rischio immediato per la privacy, piuttosto che una semplice preoccupazione teorica futura. Come primo passo per affrontare questa sfida, abbiamo sviluppato un nuovo benchmark, GPTGeoChat, per testare la capacità dei VLMs di moderare i dialoghi di geolocalizzazione con gli utenti. Abbiamo raccolto un insieme di 1.000 conversazioni di geolocalizzazione di immagini tra annotatori interni e GPT-4v, annotate con la granularità delle informazioni sulla posizione rivelate a ogni turno. Utilizzando questo nuovo dataset, valutiamo la capacità di vari VLMs di moderare le conversazioni di geolocalizzazione di GPT-4v determinando quando sono state rivelate troppe informazioni sulla posizione. Scopriamo che modelli personalizzati fine-tuned performano alla pari con modelli basati su API promptati nell'identificare informazioni sulla posizione trapelate a livello di paese o città; tuttavia, sembra necessario un fine-tuning su dati supervisionati per moderare accuratamente granularità più fini, come il nome di un ristorante o di un edificio.
English
Vision Language Models (VLMs) are rapidly advancing in their capability to answer information-seeking questions. As these models are widely deployed in consumer applications, they could lead to new privacy risks due to emergent abilities to identify people in photos, geolocate images, etc. As we demonstrate, somewhat surprisingly, current open-source and proprietary VLMs are very capable image geolocators, making widespread geolocation with VLMs an immediate privacy risk, rather than merely a theoretical future concern. As a first step to address this challenge, we develop a new benchmark, GPTGeoChat, to test the ability of VLMs to moderate geolocation dialogues with users. We collect a set of 1,000 image geolocation conversations between in-house annotators and GPT-4v, which are annotated with the granularity of location information revealed at each turn. Using this new dataset, we evaluate the ability of various VLMs to moderate GPT-4v geolocation conversations by determining when too much location information has been revealed. We find that custom fine-tuned models perform on par with prompted API-based models when identifying leaked location information at the country or city level; however, fine-tuning on supervised data appears to be needed to accurately moderate finer granularities, such as the name of a restaurant or building.
PDF71November 28, 2024