ChatPaper.aiChatPaper

Les modèles vision-langue respectent-ils l'intégrité contextuelle dans la divulgation de localisation ?

Do Vision-Language Models Respect Contextual Integrity in Location Disclosure?

February 4, 2026
papers.authors: Ruixin Yang, Ethan Mendes, Arthur Wang, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI

papers.abstract

Les modèles vision-langage (VLM) ont démontré des performances remarquables en géolocalisation d'images, une capacité encore renforcée par les modèles de raisonnement multimodal de pointe (MLRM). Cela représente un risque important pour la vie privée, car ces modèles largement accessibles peuvent être exploités pour déduire des emplacements sensibles à partir de photos partagées de manière informelle, souvent avec une précision au niveau de la rue, dépassant potentiellement le niveau de détail que la personne ayant partagé l'image a consenti ou souhaité divulguer. Si des travaux récents ont proposé d'appliquer une restriction générale sur la divulgation de la géolocalisation pour contrer ce risque, ces mesures ne permettent pas de distinguer les utilisations légitimes de la géolocalisation des comportements malveillants. Au lieu de cela, les VLM devraient préserver l'intégrité contextuelle en raisonnant sur les éléments d'une image pour déterminer le niveau approprié de divulgation d'informations, en équilibrant vie privée et utilité. Pour évaluer dans quelle mesure les modèles respectent l'intégrité contextuelle, nous présentons VLM-GEOPRIVACY, un benchmark qui met au défi les VLM d'interpréter les normes sociales latentes et les indices contextuels dans des images du monde réel afin de déterminer le niveau approprié de divulgation de localisation. Notre évaluation de 14 VLM leaders montre que, malgré leur capacité à géolocaliser précisément les images, les modèles sont mal alignés avec les attentes humaines en matière de vie privée. Ils divulguent souvent trop d'informations dans des contextes sensibles et sont vulnérables aux attaques basées sur l'invite. Nos résultats appellent à de nouveaux principes de conception dans les systèmes multimodaux pour intégrer un raisonnement conditionnel sur la vie privée.
English
Vision-language models (VLMs) have demonstrated strong performance in image geolocation, a capability further sharpened by frontier multimodal large reasoning models (MLRMs). This poses a significant privacy risk, as these widely accessible models can be exploited to infer sensitive locations from casually shared photos, often at street-level precision, potentially surpassing the level of detail the sharer consented or intended to disclose. While recent work has proposed applying a blanket restriction on geolocation disclosure to combat this risk, these measures fail to distinguish valid geolocation uses from malicious behavior. Instead, VLMs should maintain contextual integrity by reasoning about elements within an image to determine the appropriate level of information disclosure, balancing privacy and utility. To evaluate how well models respect contextual integrity, we introduce VLM-GEOPRIVACY, a benchmark that challenges VLMs to interpret latent social norms and contextual cues in real-world images and determine the appropriate level of location disclosure. Our evaluation of 14 leading VLMs shows that, despite their ability to precisely geolocate images, the models are poorly aligned with human privacy expectations. They often over-disclose in sensitive contexts and are vulnerable to prompt-based attacks. Our results call for new design principles in multimodal systems to incorporate context-conditioned privacy reasoning.
PDF22February 7, 2026