¿Respetan los Modelos de Visión y Lenguaje la Integridad Contextual en la Divulgación de Ubicación?
Do Vision-Language Models Respect Contextual Integrity in Location Disclosure?
February 4, 2026
Autores: Ruixin Yang, Ethan Mendes, Arthur Wang, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI
Resumen
Los modelos de visión y lenguaje (VLM) han demostrado un alto rendimiento en la geolocalización de imágenes, una capacidad que ha sido perfeccionada aún más por los modelos de razonamiento multimodal avanzados (MLRM). Esto plantea un riesgo significativo para la privacidad, ya que estos modelos ampliamente accesibles pueden ser explotados para inferir ubicaciones sensibles a partir de fotos compartidas casualmente, a menudo con precisión a nivel de calle, superando potencialmente el nivel de detalle que el usuario consintió o pretendía revelar. Si bien trabajos recientes han propuesto aplicar una restricción general a la divulgación de geolocalización para combatir este riesgo, estas medidas no logran distinguir los usos válidos de la geolocalización de los comportamientos maliciosos. En su lugar, los VLM deberían mantener la integridad contextual razonando sobre los elementos dentro de una imagen para determinar el nivel apropiado de divulgación de información, equilibrando privacidad y utilidad. Para evaluar qué tan bien los modelos respetan la integridad contextual, presentamos VLM-GEOPRIVACY, un benchmark que desafía a los VLM a interpretar normas sociales latentes y señales contextuales en imágenes del mundo real y determinar el nivel apropiado de divulgación de ubicación. Nuestra evaluación de 14 VLM líderes muestra que, a pesar de su capacidad para geolocalizar imágenes con precisión, los modelos están pobremente alineados con las expectativas humanas de privacidad. A menudo divulgan información excesiva en contextos sensibles y son vulnerables a ataques basados en *prompts*. Nuestros resultados exigen nuevos principios de diseño en sistemas multimodales para incorporar un razonamiento de privacidad condicionado por el contexto.
English
Vision-language models (VLMs) have demonstrated strong performance in image geolocation, a capability further sharpened by frontier multimodal large reasoning models (MLRMs). This poses a significant privacy risk, as these widely accessible models can be exploited to infer sensitive locations from casually shared photos, often at street-level precision, potentially surpassing the level of detail the sharer consented or intended to disclose. While recent work has proposed applying a blanket restriction on geolocation disclosure to combat this risk, these measures fail to distinguish valid geolocation uses from malicious behavior. Instead, VLMs should maintain contextual integrity by reasoning about elements within an image to determine the appropriate level of information disclosure, balancing privacy and utility. To evaluate how well models respect contextual integrity, we introduce VLM-GEOPRIVACY, a benchmark that challenges VLMs to interpret latent social norms and contextual cues in real-world images and determine the appropriate level of location disclosure. Our evaluation of 14 leading VLMs shows that, despite their ability to precisely geolocate images, the models are poorly aligned with human privacy expectations. They often over-disclose in sensitive contexts and are vulnerable to prompt-based attacks. Our results call for new design principles in multimodal systems to incorporate context-conditioned privacy reasoning.