Attenzione al Terzo Occhio! Valutazione della Consapevolezza della Privacy negli Agenti per Smartphone Basati su MLLM
Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
August 27, 2025
Autori: Zhixin Lin, Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu
cs.AI
Abstract
Gli smartphone offrono una notevole comodità agli utenti, ma consentono anche ai dispositivi di registrare ampiamente vari tipi di informazioni personali. Gli agenti per smartphone esistenti, alimentati da Modelli Linguistici Multimodali di Grande Scala (MLLM), hanno ottenuto prestazioni notevoli nell'automatizzazione di diverse attività. Tuttavia, come costo, a questi agenti viene concessa un'ampia accesso a informazioni personali sensibili degli utenti durante il loro funzionamento. Per ottenere una comprensione approfondita della consapevolezza della privacy di questi agenti, presentiamo il primo benchmark su larga scala che comprende 7.138 scenari, per quanto ne sappiamo. Inoltre, per il contesto della privacy negli scenari, annotiamo il suo tipo (ad esempio, Credenziali dell'Account), il livello di sensibilità e la posizione. Successivamente, valutiamo attentamente sette agenti per smartphone mainstream disponibili. I nostri risultati dimostrano che quasi tutti gli agenti valutati mostrano una consapevolezza della privacy (RA) insoddisfacente, con prestazioni che rimangono al di sotto del 60% anche con suggerimenti espliciti. Nel complesso, gli agenti closed-source mostrano una migliore capacità di privacy rispetto a quelli open-source, e Gemini 2.0-flash ottiene il risultato migliore, raggiungendo un RA del 67%. Troviamo inoltre che la capacità di rilevamento della privacy degli agenti è altamente correlata al livello di sensibilità dello scenario, ovvero, gli scenari con un livello di sensibilità più elevato sono tipicamente più identificabili. Speriamo che i risultati illuminino la comunità di ricerca a ripensare il compromesso squilibrato tra utilità e privacy riguardo agli agenti per smartphone. Il nostro codice e il benchmark sono disponibili all'indirizzo https://zhixin-l.github.io/SAPA-Bench.
English
Smartphones bring significant convenience to users but also enable devices to
extensively record various types of personal information. Existing smartphone
agents powered by Multimodal Large Language Models (MLLMs) have achieved
remarkable performance in automating different tasks. However, as the cost,
these agents are granted substantial access to sensitive users' personal
information during this operation. To gain a thorough understanding of the
privacy awareness of these agents, we present the first large-scale benchmark
encompassing 7,138 scenarios to the best of our knowledge. In addition, for
privacy context in scenarios, we annotate its type (e.g., Account Credentials),
sensitivity level, and location. We then carefully benchmark seven available
mainstream smartphone agents. Our results demonstrate that almost all
benchmarked agents show unsatisfying privacy awareness (RA), with performance
remaining below 60% even with explicit hints. Overall, closed-source agents
show better privacy ability than open-source ones, and Gemini 2.0-flash
achieves the best, achieving an RA of 67%. We also find that the agents'
privacy detection capability is highly related to scenario sensitivity level,
i.e., the scenario with a higher sensitivity level is typically more
identifiable. We hope the findings enlighten the research community to rethink
the unbalanced utility-privacy tradeoff about smartphone agents. Our code and
benchmark are available at https://zhixin-l.github.io/SAPA-Bench.