Achte auf das dritte Auge! Benchmarking der Privatsphäre-Wahrnehmung in MLLM-betriebenen Smartphone-Agenten

papers.abstract

Smartphones bieten Nutzern erheblichen Komfort, ermöglichen aber auch die umfangreiche Aufzeichnung verschiedener Arten persönlicher Informationen. Bestehende Smartphone-Agenten, die von Multimodalen Großen Sprachmodellen (MLLMs) angetrieben werden, haben bemerkenswerte Leistungen bei der Automatisierung verschiedener Aufgaben erzielt. Allerdings erhalten diese Agenten während des Betriebs erheblichen Zugriff auf sensible persönliche Informationen der Nutzer. Um ein umfassendes Verständnis des Datenschutzbewusstseins dieser Agenten zu erlangen, präsentieren wir den ersten groß angelegten Benchmark, der nach unserem Wissen 7.138 Szenarien umfasst. Darüber hinaus annotieren wir für den Datenschutzkontext in den Szenarien dessen Typ (z.B. Account-Zugangsdaten), Sensitivitätsniveau und Standort. Anschließend benchmarken wir sorgfältig sieben verfügbare Mainstream-Smartphone-Agenten. Unsere Ergebnisse zeigen, dass fast alle getesteten Agenten ein unbefriedigendes Datenschutzbewusstsein (RA) aufweisen, wobei die Leistung selbst bei expliziten Hinweisen unter 60% bleibt. Insgesamt zeigen Closed-Source-Agenten eine bessere Datenschutzfähigkeit als Open-Source-Agenten, und Gemini 2.0-flash erreicht mit einem RA von 67% das beste Ergebnis. Wir stellen auch fest, dass die Datenschutzerkennungsfähigkeit der Agenten stark mit dem Sensitivitätsniveau des Szenarios zusammenhängt, d.h. Szenarien mit einem höheren Sensitivitätsniveau sind typischerweise besser erkennbar. Wir hoffen, dass die Erkenntnisse die Forschungsgemeinschaft dazu anregen, das unausgewogene Nutzen-Datenschutz-Verhältnis bei Smartphone-Agenten neu zu überdenken. Unser Code und Benchmark sind unter https://zhixin-l.github.io/SAPA-Bench verfügbar.

English

Smartphones bring significant convenience to users but also enable devices to extensively record various types of personal information. Existing smartphone agents powered by Multimodal Large Language Models (MLLMs) have achieved remarkable performance in automating different tasks. However, as the cost, these agents are granted substantial access to sensitive users' personal information during this operation. To gain a thorough understanding of the privacy awareness of these agents, we present the first large-scale benchmark encompassing 7,138 scenarios to the best of our knowledge. In addition, for privacy context in scenarios, we annotate its type (e.g., Account Credentials), sensitivity level, and location. We then carefully benchmark seven available mainstream smartphone agents. Our results demonstrate that almost all benchmarked agents show unsatisfying privacy awareness (RA), with performance remaining below 60% even with explicit hints. Overall, closed-source agents show better privacy ability than open-source ones, and Gemini 2.0-flash achieves the best, achieving an RA of 67%. We also find that the agents' privacy detection capability is highly related to scenario sensitivity level, i.e., the scenario with a higher sensitivity level is typically more identifiable. We hope the findings enlighten the research community to rethink the unbalanced utility-privacy tradeoff about smartphone agents. Our code and benchmark are available at https://zhixin-l.github.io/SAPA-Bench.

Achte auf das dritte Auge! Benchmarking der Privatsphäre-Wahrnehmung in MLLM-betriebenen Smartphone-Agenten

Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents

papers.abstract

Support