Achte auf das dritte Auge! Benchmarking der Privatsphäre-Wahrnehmung in MLLM-betriebenen Smartphone-Agenten
Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
August 27, 2025
papers.authors: Zhixin Lin, Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu
cs.AI
papers.abstract
Smartphones bieten Nutzern erheblichen Komfort, ermöglichen aber auch die umfangreiche Aufzeichnung verschiedener Arten persönlicher Informationen. Bestehende Smartphone-Agenten, die von Multimodalen Großen Sprachmodellen (MLLMs) angetrieben werden, haben bemerkenswerte Leistungen bei der Automatisierung verschiedener Aufgaben erzielt. Allerdings erhalten diese Agenten während des Betriebs erheblichen Zugriff auf sensible persönliche Informationen der Nutzer. Um ein umfassendes Verständnis des Datenschutzbewusstseins dieser Agenten zu erlangen, präsentieren wir den ersten groß angelegten Benchmark, der nach unserem Wissen 7.138 Szenarien umfasst. Darüber hinaus annotieren wir für den Datenschutzkontext in den Szenarien dessen Typ (z.B. Account-Zugangsdaten), Sensitivitätsniveau und Standort. Anschließend benchmarken wir sorgfältig sieben verfügbare Mainstream-Smartphone-Agenten. Unsere Ergebnisse zeigen, dass fast alle getesteten Agenten ein unbefriedigendes Datenschutzbewusstsein (RA) aufweisen, wobei die Leistung selbst bei expliziten Hinweisen unter 60% bleibt. Insgesamt zeigen Closed-Source-Agenten eine bessere Datenschutzfähigkeit als Open-Source-Agenten, und Gemini 2.0-flash erreicht mit einem RA von 67% das beste Ergebnis. Wir stellen auch fest, dass die Datenschutzerkennungsfähigkeit der Agenten stark mit dem Sensitivitätsniveau des Szenarios zusammenhängt, d.h. Szenarien mit einem höheren Sensitivitätsniveau sind typischerweise besser erkennbar. Wir hoffen, dass die Erkenntnisse die Forschungsgemeinschaft dazu anregen, das unausgewogene Nutzen-Datenschutz-Verhältnis bei Smartphone-Agenten neu zu überdenken. Unser Code und Benchmark sind unter https://zhixin-l.github.io/SAPA-Bench verfügbar.
English
Smartphones bring significant convenience to users but also enable devices to
extensively record various types of personal information. Existing smartphone
agents powered by Multimodal Large Language Models (MLLMs) have achieved
remarkable performance in automating different tasks. However, as the cost,
these agents are granted substantial access to sensitive users' personal
information during this operation. To gain a thorough understanding of the
privacy awareness of these agents, we present the first large-scale benchmark
encompassing 7,138 scenarios to the best of our knowledge. In addition, for
privacy context in scenarios, we annotate its type (e.g., Account Credentials),
sensitivity level, and location. We then carefully benchmark seven available
mainstream smartphone agents. Our results demonstrate that almost all
benchmarked agents show unsatisfying privacy awareness (RA), with performance
remaining below 60% even with explicit hints. Overall, closed-source agents
show better privacy ability than open-source ones, and Gemini 2.0-flash
achieves the best, achieving an RA of 67%. We also find that the agents'
privacy detection capability is highly related to scenario sensitivity level,
i.e., the scenario with a higher sensitivity level is typically more
identifiable. We hope the findings enlighten the research community to rethink
the unbalanced utility-privacy tradeoff about smartphone agents. Our code and
benchmark are available at https://zhixin-l.github.io/SAPA-Bench.