Fique de olho no Terceiro Olho! Avaliando a Consciência sobre Privacidade em Agentes de Smartphone Potencializados por MLLM
Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
August 27, 2025
Autores: Zhixin Lin, Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu
cs.AI
Resumo
Os smartphones trazem conveniência significativa aos usuários, mas também permitem que os dispositivos registrem extensivamente diversos tipos de informações pessoais. Os agentes de smartphones existentes, impulsionados por Modelos de Linguagem Multimodal de Grande Escala (MLLMs), alcançaram desempenho notável na automação de diferentes tarefas. No entanto, como custo, esses agentes recebem acesso substancial a informações pessoais sensíveis dos usuários durante essa operação. Para obter uma compreensão profunda da conscientização sobre privacidade desses agentes, apresentamos o primeiro benchmark em larga escala, abrangendo 7.138 cenários, até onde sabemos. Além disso, para o contexto de privacidade nos cenários, anotamos seu tipo (por exemplo, Credenciais de Conta), nível de sensibilidade e localização. Em seguida, avaliamos cuidadosamente sete agentes de smartphone mainstream disponíveis. Nossos resultados demonstram que quase todos os agentes avaliados apresentam uma conscientização sobre privacidade (RA) insatisfatória, com desempenho permanecendo abaixo de 60% mesmo com dicas explícitas. No geral, os agentes de código fechado mostram melhor capacidade de privacidade do que os de código aberto, e o Gemini 2.0-flash alcança o melhor desempenho, atingindo uma RA de 67%. Também descobrimos que a capacidade de detecção de privacidade dos agentes está altamente relacionada ao nível de sensibilidade do cenário, ou seja, o cenário com um nível de sensibilidade mais alto é tipicamente mais identificável. Esperamos que as descobertas iluminem a comunidade de pesquisa para repensar o equilíbrio desequilibrado entre utilidade e privacidade em relação aos agentes de smartphone. Nosso código e benchmark estão disponíveis em https://zhixin-l.github.io/SAPA-Bench.
English
Smartphones bring significant convenience to users but also enable devices to
extensively record various types of personal information. Existing smartphone
agents powered by Multimodal Large Language Models (MLLMs) have achieved
remarkable performance in automating different tasks. However, as the cost,
these agents are granted substantial access to sensitive users' personal
information during this operation. To gain a thorough understanding of the
privacy awareness of these agents, we present the first large-scale benchmark
encompassing 7,138 scenarios to the best of our knowledge. In addition, for
privacy context in scenarios, we annotate its type (e.g., Account Credentials),
sensitivity level, and location. We then carefully benchmark seven available
mainstream smartphone agents. Our results demonstrate that almost all
benchmarked agents show unsatisfying privacy awareness (RA), with performance
remaining below 60% even with explicit hints. Overall, closed-source agents
show better privacy ability than open-source ones, and Gemini 2.0-flash
achieves the best, achieving an RA of 67%. We also find that the agents'
privacy detection capability is highly related to scenario sensitivity level,
i.e., the scenario with a higher sensitivity level is typically more
identifiable. We hope the findings enlighten the research community to rethink
the unbalanced utility-privacy tradeoff about smartphone agents. Our code and
benchmark are available at https://zhixin-l.github.io/SAPA-Bench.