Os Modelos Visão-Linguagem Respeitam a Integridade Contextual na Divulgação de Localização?
Do Vision-Language Models Respect Contextual Integrity in Location Disclosure?
February 4, 2026
Autores: Ruixin Yang, Ethan Mendes, Arthur Wang, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI
Resumo
Os modelos visão-linguagem (VLMs) demonstraram um forte desempenho na geolocalização de imagens, uma capacidade ainda mais aprimorada pelos modelos multimodais de grande raciocínio de última geração (MLRMs). Isso representa um risco significativo à privacidade, uma vez que esses modelos amplamente acessíveis podem ser explorados para inferir locais sensíveis a partir de fotos compartilhadas casualmente, frequentemente com precisão em nível de rua, potencialmente superando o nível de detalhe que o compartilhador consentiu ou pretendia divulgar. Embora trabalhos recentes tenham proposto a aplicação de uma restrição geral à divulgação de geolocalização para combater esse risco, essas medidas não distinguem os usos válidos de geolocalização de comportamentos maliciosos. Em vez disso, os VLMs devem manter a integridade contextual, raciocinando sobre os elementos dentro de uma imagem para determinar o nível apropriado de divulgação de informações, equilibrando privacidade e utilidade. Para avaliar o quanto os modelos respeitam a integridade contextual, introduzimos o VLM-GEOPRIVACY, um benchmark que desafia os VLMs a interpretar normas sociais latentes e pistas contextuais em imagens do mundo real e determinar o nível apropriado de divulgação de localização. Nossa avaliação de 14 VLMs líderes mostra que, apesar de sua capacidade de geolocalizar imagens com precisão, os modelos estão pouco alinhados com as expectativas humanas de privacidade. Eles frequentemente divulgam excessivamente em contextos sensíveis e são vulneráveis a ataques baseados em *prompts*. Nossos resultados apontam para a necessidade de novos princípios de design em sistemas multimodais para incorporar raciocínios de privacidade condicionados ao contexto.
English
Vision-language models (VLMs) have demonstrated strong performance in image geolocation, a capability further sharpened by frontier multimodal large reasoning models (MLRMs). This poses a significant privacy risk, as these widely accessible models can be exploited to infer sensitive locations from casually shared photos, often at street-level precision, potentially surpassing the level of detail the sharer consented or intended to disclose. While recent work has proposed applying a blanket restriction on geolocation disclosure to combat this risk, these measures fail to distinguish valid geolocation uses from malicious behavior. Instead, VLMs should maintain contextual integrity by reasoning about elements within an image to determine the appropriate level of information disclosure, balancing privacy and utility. To evaluate how well models respect contextual integrity, we introduce VLM-GEOPRIVACY, a benchmark that challenges VLMs to interpret latent social norms and contextual cues in real-world images and determine the appropriate level of location disclosure. Our evaluation of 14 leading VLMs shows that, despite their ability to precisely geolocate images, the models are poorly aligned with human privacy expectations. They often over-disclose in sensitive contexts and are vulnerable to prompt-based attacks. Our results call for new design principles in multimodal systems to incorporate context-conditioned privacy reasoning.