ChatPaper.aiChatPaper

視覚言語モデルは位置情報の開示において文脈的整合性を尊重するか?

Do Vision-Language Models Respect Contextual Integrity in Location Disclosure?

February 4, 2026
著者: Ruixin Yang, Ethan Mendes, Arthur Wang, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI

要旨

視覚言語モデル(VLM)は、画像の位置情報推定において優れた性能を示しており、この能力は先進的なマルチモーダル大規模推論モデル(MLRM)によってさらに鋭敏化されている。このことは重大なプライバシーリスクを引き起こす。広く利用可能なこれらのモデルが、気軽に共有された写真から機密性の高い位置情報を推論するために悪用される可能性があり、多くの場合、通り単位の精度に達し、共有者が同意または意図した開示水準を超える詳細さに及ぶためである。最近の研究では、このリスクに対処するため位置情報開示に対する包括的な制限を適用することが提案されているが、これらの対策は悪意のある行為と正当な位置情報利用とを区別できていない。むしろVLMは、画像内の要素を推論して適切な情報開示水準を決定し、プライバシーと有用性のバランスを取ることで、文脈的整合性を維持すべきである。モデルが文脈的整合性をどの程度尊重するかを評価するため、我々はVLM-GEOPRIVACYベンチマークを導入する。これはVLMに対し、実世界の画像に含まれる潜在的な社会的規範と文脈的手がかりを解釈し、適切な位置情報開示水準を決定することを求めるものである。主要な14のVLMを評価した結果、モデルは画像を正確に位置推定できる能力を持つにもかかわらず、人間のプライバシー期待との整合性が低いことが明らかになった。機密性の高い文脈で過剰な開示を行うことが多く、プロンプトベースの攻撃に対して脆弱である。我々の結果は、マルチモーダルシステムにおける新しい設計原則として、文脈条件付きプライバシー推論の組み込み必要性を提唱するものである。
English
Vision-language models (VLMs) have demonstrated strong performance in image geolocation, a capability further sharpened by frontier multimodal large reasoning models (MLRMs). This poses a significant privacy risk, as these widely accessible models can be exploited to infer sensitive locations from casually shared photos, often at street-level precision, potentially surpassing the level of detail the sharer consented or intended to disclose. While recent work has proposed applying a blanket restriction on geolocation disclosure to combat this risk, these measures fail to distinguish valid geolocation uses from malicious behavior. Instead, VLMs should maintain contextual integrity by reasoning about elements within an image to determine the appropriate level of information disclosure, balancing privacy and utility. To evaluate how well models respect contextual integrity, we introduce VLM-GEOPRIVACY, a benchmark that challenges VLMs to interpret latent social norms and contextual cues in real-world images and determine the appropriate level of location disclosure. Our evaluation of 14 leading VLMs shows that, despite their ability to precisely geolocate images, the models are poorly aligned with human privacy expectations. They often over-disclose in sensitive contexts and are vulnerable to prompt-based attacks. Our results call for new design principles in multimodal systems to incorporate context-conditioned privacy reasoning.
PDF22February 7, 2026