Обратите внимание на "Третий глаз"! Оценка осведомленности о конфиденциальности в смартфонных агентах, основанных на мультимодальных языковых моделях
Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
August 27, 2025
Авторы: Zhixin Lin, Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu
cs.AI
Аннотация
Смартфоны предоставляют пользователям значительные удобства, но также позволяют устройствам активно записывать различные типы личной информации. Существующие смартфонные агенты, основанные на мультимодальных больших языковых моделях (MLLM), достигли впечатляющих результатов в автоматизации различных задач. Однако, как следствие, этим агентам предоставляется значительный доступ к конфиденциальной личной информации пользователей в процессе работы. Чтобы получить глубокое понимание осведомленности о конфиденциальности этих агентов, мы представляем первый крупномасштабный бенчмарк, охватывающий 7 138 сценариев, насколько нам известно. Кроме того, для контекста конфиденциальности в сценариях мы аннотируем его тип (например, учетные данные), уровень чувствительности и местоположение. Затем мы тщательно тестируем семь доступных популярных смартфонных агентов. Наши результаты показывают, что почти все протестированные агенты демонстрируют неудовлетворительную осведомленность о конфиденциальности (RA), с производительностью ниже 60% даже при наличии явных подсказок. В целом, закрытые агенты показывают лучшие способности в области конфиденциальности, чем открытые, и Gemini 2.0-flash достигает наилучшего результата с RA 67%. Мы также обнаружили, что способность агентов обнаруживать конфиденциальность сильно связана с уровнем чувствительности сценария, то есть сценарии с более высоким уровнем чувствительности, как правило, легче идентифицировать. Мы надеемся, что эти результаты вдохновят исследовательское сообщество на переосмысление несбалансированного компромисса между полезностью и конфиденциальностью в отношении смартфонных агентов. Наш код и бенчмарк доступны по адресу https://zhixin-l.github.io/SAPA-Bench.
English
Smartphones bring significant convenience to users but also enable devices to
extensively record various types of personal information. Existing smartphone
agents powered by Multimodal Large Language Models (MLLMs) have achieved
remarkable performance in automating different tasks. However, as the cost,
these agents are granted substantial access to sensitive users' personal
information during this operation. To gain a thorough understanding of the
privacy awareness of these agents, we present the first large-scale benchmark
encompassing 7,138 scenarios to the best of our knowledge. In addition, for
privacy context in scenarios, we annotate its type (e.g., Account Credentials),
sensitivity level, and location. We then carefully benchmark seven available
mainstream smartphone agents. Our results demonstrate that almost all
benchmarked agents show unsatisfying privacy awareness (RA), with performance
remaining below 60% even with explicit hints. Overall, closed-source agents
show better privacy ability than open-source ones, and Gemini 2.0-flash
achieves the best, achieving an RA of 67%. We also find that the agents'
privacy detection capability is highly related to scenario sensitivity level,
i.e., the scenario with a higher sensitivity level is typically more
identifiable. We hope the findings enlighten the research community to rethink
the unbalanced utility-privacy tradeoff about smartphone agents. Our code and
benchmark are available at https://zhixin-l.github.io/SAPA-Bench.