ChatPaper.aiChatPaper

第三の目に注意せよ!MLLM搭載スマートフォンエージェントにおけるプライバシー認識のベンチマーキング

Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents

August 27, 2025
著者: Zhixin Lin, Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu
cs.AI

要旨

スマートフォンはユーザーに多大な利便性をもたらす一方で、様々な種類の個人情報を広範に記録することを可能にします。マルチモーダル大規模言語モデル(MLLMs)を基盤とする既存のスマートフォンエージェントは、様々なタスクの自動化において顕著な性能を発揮しています。しかし、その代償として、これらのエージェントは動作中にユーザーの機密情報に大幅なアクセス権を付与されています。これらのエージェントのプライバシー認識を徹底的に理解するため、私たちは知る限り初の大規模なベンチマークを提示します。このベンチマークは7,138のシナリオを網羅しています。さらに、シナリオ内のプライバシー文脈について、そのタイプ(例:アカウント認証情報)、感度レベル、および位置を注釈しています。その後、利用可能な7つの主要なスマートフォンエージェントを慎重にベンチマークしました。その結果、ベンチマークされたほぼ全てのエージェントが満足のいくプライバシー認識(RA)を示さず、明示的なヒントがあっても性能は60%未満にとどまることが明らかになりました。全体的に、クローズドソースのエージェントはオープンソースのものよりも優れたプライバシー能力を示し、Gemini 2.0-flashが最高のRA 67%を達成しました。また、エージェントのプライバシー検出能力はシナリオの感度レベルと強く関連しており、感度レベルが高いシナリオほど通常識別されやすいことが分かりました。これらの発見が、スマートフォンエージェントに関するユーティリティとプライバシーの不均衡なトレードオフについて研究コミュニティが再考するきっかけとなることを願っています。私たちのコードとベンチマークはhttps://zhixin-l.github.io/SAPA-Benchで公開されています。
English
Smartphones bring significant convenience to users but also enable devices to extensively record various types of personal information. Existing smartphone agents powered by Multimodal Large Language Models (MLLMs) have achieved remarkable performance in automating different tasks. However, as the cost, these agents are granted substantial access to sensitive users' personal information during this operation. To gain a thorough understanding of the privacy awareness of these agents, we present the first large-scale benchmark encompassing 7,138 scenarios to the best of our knowledge. In addition, for privacy context in scenarios, we annotate its type (e.g., Account Credentials), sensitivity level, and location. We then carefully benchmark seven available mainstream smartphone agents. Our results demonstrate that almost all benchmarked agents show unsatisfying privacy awareness (RA), with performance remaining below 60% even with explicit hints. Overall, closed-source agents show better privacy ability than open-source ones, and Gemini 2.0-flash achieves the best, achieving an RA of 67%. We also find that the agents' privacy detection capability is highly related to scenario sensitivity level, i.e., the scenario with a higher sensitivity level is typically more identifiable. We hope the findings enlighten the research community to rethink the unbalanced utility-privacy tradeoff about smartphone agents. Our code and benchmark are available at https://zhixin-l.github.io/SAPA-Bench.
PDF116August 28, 2025