¡Cuidado con el Tercer Ojo! Evaluación de la Conciencia sobre la Privacidad en Agentes de Smartphone Potenciados por MLLM
Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
August 27, 2025
Autores: Zhixin Lin, Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu
cs.AI
Resumen
Los smartphones brindan una comodidad significativa a los usuarios, pero también permiten que los dispositivos registren extensamente diversos tipos de información personal. Los agentes de smartphones existentes, impulsados por Modelos de Lenguaje Multimodal de Gran Escala (MLLMs, por sus siglas en inglés), han logrado un rendimiento notable en la automatización de diferentes tareas. Sin embargo, como contrapartida, estos agentes obtienen un acceso sustancial a la información personal sensible de los usuarios durante su funcionamiento. Para comprender a fondo la conciencia sobre la privacidad de estos agentes, presentamos el primer punto de referencia a gran escala que abarca 7,138 escenarios, según nuestro conocimiento. Además, para el contexto de privacidad en los escenarios, anotamos su tipo (por ejemplo, Credenciales de Cuenta), nivel de sensibilidad y ubicación. Luego, evaluamos cuidadosamente siete agentes de smartphones principales disponibles. Nuestros resultados demuestran que casi todos los agentes evaluados muestran una conciencia de privacidad (RA, por sus siglas en inglés) insatisfactoria, con un rendimiento que se mantiene por debajo del 60% incluso con indicaciones explícitas. En general, los agentes de código cerrado muestran una mejor capacidad de privacidad que los de código abierto, y Gemini 2.0-flash logra el mejor resultado, alcanzando un RA del 67%. También encontramos que la capacidad de detección de privacidad de los agentes está altamente relacionada con el nivel de sensibilidad del escenario, es decir, el escenario con un nivel de sensibilidad más alto suele ser más identificable. Esperamos que estos hallazgos inspiren a la comunidad de investigación a reconsiderar el equilibrio desproporcionado entre utilidad y privacidad en los agentes de smartphones. Nuestro código y punto de referencia están disponibles en https://zhixin-l.github.io/SAPA-Bench.
English
Smartphones bring significant convenience to users but also enable devices to
extensively record various types of personal information. Existing smartphone
agents powered by Multimodal Large Language Models (MLLMs) have achieved
remarkable performance in automating different tasks. However, as the cost,
these agents are granted substantial access to sensitive users' personal
information during this operation. To gain a thorough understanding of the
privacy awareness of these agents, we present the first large-scale benchmark
encompassing 7,138 scenarios to the best of our knowledge. In addition, for
privacy context in scenarios, we annotate its type (e.g., Account Credentials),
sensitivity level, and location. We then carefully benchmark seven available
mainstream smartphone agents. Our results demonstrate that almost all
benchmarked agents show unsatisfying privacy awareness (RA), with performance
remaining below 60% even with explicit hints. Overall, closed-source agents
show better privacy ability than open-source ones, and Gemini 2.0-flash
achieves the best, achieving an RA of 67%. We also find that the agents'
privacy detection capability is highly related to scenario sensitivity level,
i.e., the scenario with a higher sensitivity level is typically more
identifiable. We hope the findings enlighten the research community to rethink
the unbalanced utility-privacy tradeoff about smartphone agents. Our code and
benchmark are available at https://zhixin-l.github.io/SAPA-Bench.