Let op het Derde Oog! Het benchmarken van privacybewustzijn in MLLM-aangedreven smartphone-assistenten
Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
August 27, 2025
Auteurs: Zhixin Lin, Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu
cs.AI
Samenvatting
Smartphones bieden gebruikers aanzienlijk gemak, maar stellen apparaten ook in staat om uitgebreid verschillende soorten persoonlijke informatie vast te leggen. Bestaande smartphone-agents, aangedreven door Multimodale Grote Taalmodellen (MLLMs), hebben opmerkelijke prestaties geleverd bij het automatiseren van verschillende taken. Echter, als gevolg hiervan krijgen deze agents tijdens hun werking uitgebreide toegang tot gevoelige persoonlijke informatie van gebruikers. Om een grondig inzicht te krijgen in de privacybewustheid van deze agents, presenteren we de eerste grootschalige benchmark die, voor zover wij weten, 7.138 scenario's omvat. Daarnaast annoteren we voor de privacycontext in scenario's het type (bijv. Accountgegevens), het gevoeligheidsniveau en de locatie. Vervolgens benchmarken we zorgvuldig zeven beschikbare mainstream smartphone-agents. Onze resultaten tonen aan dat bijna alle gebenchmarkte agents een onbevredigende privacybewustheid (RA) vertonen, waarbij de prestaties zelfs met expliciete aanwijzingen onder de 60% blijven. Over het algemeen tonen closed-source agents een betere privacyvaardigheid dan open-source agents, waarbij Gemini 2.0-flash de beste prestaties levert met een RA van 67%. We ontdekken ook dat de privacydetectiecapaciteit van de agents sterk gerelateerd is aan het gevoeligheidsniveau van het scenario, d.w.z. scenario's met een hoger gevoeligheidsniveau zijn doorgaans beter identificeerbaar. We hopen dat deze bevindingen de onderzoeksgemeenschap inspireren om de onevenwichtige afweging tussen nut en privacy bij smartphone-agents opnieuw te overdenken. Onze code en benchmark zijn beschikbaar op https://zhixin-l.github.io/SAPA-Bench.
English
Smartphones bring significant convenience to users but also enable devices to
extensively record various types of personal information. Existing smartphone
agents powered by Multimodal Large Language Models (MLLMs) have achieved
remarkable performance in automating different tasks. However, as the cost,
these agents are granted substantial access to sensitive users' personal
information during this operation. To gain a thorough understanding of the
privacy awareness of these agents, we present the first large-scale benchmark
encompassing 7,138 scenarios to the best of our knowledge. In addition, for
privacy context in scenarios, we annotate its type (e.g., Account Credentials),
sensitivity level, and location. We then carefully benchmark seven available
mainstream smartphone agents. Our results demonstrate that almost all
benchmarked agents show unsatisfying privacy awareness (RA), with performance
remaining below 60% even with explicit hints. Overall, closed-source agents
show better privacy ability than open-source ones, and Gemini 2.0-flash
achieves the best, achieving an RA of 67%. We also find that the agents'
privacy detection capability is highly related to scenario sensitivity level,
i.e., the scenario with a higher sensitivity level is typically more
identifiable. We hope the findings enlighten the research community to rethink
the unbalanced utility-privacy tradeoff about smartphone agents. Our code and
benchmark are available at https://zhixin-l.github.io/SAPA-Bench.