I Modelli Visione-Linguaggio Rispettano l'Integrità Contestuale nella Divulgazione della Posizione?

Abstract

I modelli visione-linguaggio (VLM) hanno dimostrato prestazioni elevate nella geolocalizzazione di immagini, una capacità ulteriormente affinata dai modelli multimodali avanzati di ragionamento su larga scala (MLRM). Ciò rappresenta un rischio significativo per la privacy, poiché questi modelli ampiamente accessibili possono essere sfruttati per dedurre luoghi sensibili da foto condivise casualmente, spesso con precisione a livello stradale, superando potenzialmente il livello di dettaglio che chi condivide ha autorizzato o inteso divulgare. Sebbene lavori recenti abbiano proposto l'applicazione di una restrizione generale sulla divulgazione della geolocalizzazione per contrastare questo rischio, tali misure non distinguono gli usi validi della geolocalizzazione da comportamenti malevoli. Invece, i VLM dovrebbero mantenere l'integrità contestuale ragionando sugli elementi all'interno di un'immagine per determinare il livello appropriato di divulgazione delle informazioni, bilanciando privacy e utilità. Per valutare quanto bene i modelli rispettino l'integrità contestuale, introduciamo VLM-GEOPRIVACY, un benchmark che sfida i VLM a interpretare norme sociali latenti e segnali contestuali in immagini del mondo reale e a determinare il livello appropriato di divulgazione della posizione. La nostra valutazione di 14 VLM leader di mercato mostra che, nonostante la loro capacità di geolocalizzare con precisione le immagini, i modelli sono scarsamente allineati con le aspettative di privacy umane. Essi spesso rivelano informazioni eccessive in contesti sensibili e sono vulnerabili ad attacchi basati su prompt. I nostri risultati richiedono nuovi principi di progettazione nei sistemi multimodali per incorporare un ragionamento sulla privacy condizionato al contesto.

English

Vision-language models (VLMs) have demonstrated strong performance in image geolocation, a capability further sharpened by frontier multimodal large reasoning models (MLRMs). This poses a significant privacy risk, as these widely accessible models can be exploited to infer sensitive locations from casually shared photos, often at street-level precision, potentially surpassing the level of detail the sharer consented or intended to disclose. While recent work has proposed applying a blanket restriction on geolocation disclosure to combat this risk, these measures fail to distinguish valid geolocation uses from malicious behavior. Instead, VLMs should maintain contextual integrity by reasoning about elements within an image to determine the appropriate level of information disclosure, balancing privacy and utility. To evaluate how well models respect contextual integrity, we introduce VLM-GEOPRIVACY, a benchmark that challenges VLMs to interpret latent social norms and contextual cues in real-world images and determine the appropriate level of location disclosure. Our evaluation of 14 leading VLMs shows that, despite their ability to precisely geolocate images, the models are poorly aligned with human privacy expectations. They often over-disclose in sensitive contexts and are vulnerable to prompt-based attacks. Our results call for new design principles in multimodal systems to incorporate context-conditioned privacy reasoning.

I Modelli Visione-Linguaggio Rispettano l'Integrità Contestuale nella Divulgazione della Posizione?

Do Vision-Language Models Respect Contextual Integrity in Location Disclosure?

Abstract

Support