Уважают ли визуально-лингвистические модели контекстуальную целостность при раскрытии местоположения?
Do Vision-Language Models Respect Contextual Integrity in Location Disclosure?
February 4, 2026
Авторы: Ruixin Yang, Ethan Mendes, Arthur Wang, James Hays, Sauvik Das, Wei Xu, Alan Ritter
cs.AI
Аннотация
Мультимодальные модели, объединяющие зрение и язык (VLMs), демонстрируют высокую производительность в определении геолокации изображений, и эта способность еще более усилена передовыми мультимодальными моделями с функциями сложных рассуждений (MLRMs). Это создает значительный риск для конфиденциальности, поскольку эти широкодоступные модели могут быть использованы для вывода информации о чувствительных местоположениях по случайно опубликованным фотографиям, часто с точностью до уровня улицы, что потенциально превосходит уровень детализации, на раскрытие которого дал согласие или который предполагал раскрыть пользователь. В то время как в последних работах предлагалось ввести полное ограничение на раскрытие геолокации для борьбы с этим риском, такие меры не позволяют отличить законное использование геолокации от злонамеренного. Вместо этого VLMs должны обеспечивать контекстную целостность, анализируя элементы изображения для определения соответствующего уровня раскрытия информации, балансируя между конфиденциальностью и полезностью. Для оценки того, насколько хорошо модели соблюдают контекстную целостность, мы представляем VLM-GEOPRIVACY — эталонный тест, который проверяет способность VLMs интерпретировать скрытые социальные нормы и контекстные сигналы в реальных изображениях и определять соответствующий уровень раскрытия местоположения. Наша оценка 14 ведущих VLMs показывает, что, несмотря на их способность точно определять геолокацию изображений, модели плохо согласуются с ожиданиями людей в отношении конфиденциальности. Они часто раскрывают избыточную информацию в чувствительных контекстах и уязвимы для атак на основе промптов. Наши результаты указывают на необходимость новых принципов проектирования мультимодальных систем, включающих контекстно-обусловленные механизмы рассуждений о конфиденциальности.
English
Vision-language models (VLMs) have demonstrated strong performance in image geolocation, a capability further sharpened by frontier multimodal large reasoning models (MLRMs). This poses a significant privacy risk, as these widely accessible models can be exploited to infer sensitive locations from casually shared photos, often at street-level precision, potentially surpassing the level of detail the sharer consented or intended to disclose. While recent work has proposed applying a blanket restriction on geolocation disclosure to combat this risk, these measures fail to distinguish valid geolocation uses from malicious behavior. Instead, VLMs should maintain contextual integrity by reasoning about elements within an image to determine the appropriate level of information disclosure, balancing privacy and utility. To evaluate how well models respect contextual integrity, we introduce VLM-GEOPRIVACY, a benchmark that challenges VLMs to interpret latent social norms and contextual cues in real-world images and determine the appropriate level of location disclosure. Our evaluation of 14 leading VLMs shows that, despite their ability to precisely geolocate images, the models are poorly aligned with human privacy expectations. They often over-disclose in sensitive contexts and are vulnerable to prompt-based attacks. Our results call for new design principles in multimodal systems to incorporate context-conditioned privacy reasoning.