'세 번째 눈'에 주의하라! MLLM 기반 스마트폰 에이전트의 개인정보 인식 벤치마킹
Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
August 27, 2025
저자: Zhixin Lin, Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu
cs.AI
초록
스마트폰은 사용자에게 상당한 편의를 제공하지만, 동시에 다양한 유형의 개인 정보를 광범위하게 기록할 수 있게 합니다. 멀티모달 대형 언어 모델(MLLMs)로 구동되는 기존의 스마트폰 에이전트는 다양한 작업을 자동화하는 데 있어서 뛰어난 성능을 보여왔습니다. 그러나 이러한 운영 과정에서 이러한 에이전트들은 민감한 사용자 개인 정보에 상당한 접근 권한을 부여받게 됩니다. 이러한 에이전트들의 프라이버시 인식에 대한 철저한 이해를 얻기 위해, 우리는 지금까지 알려진 바에 따르면 7,138개의 시나리오를 포함한 첫 번째 대규모 벤치마크를 제시합니다. 또한, 시나리오 내의 프라이버시 컨텍스트에 대해, 우리는 그 유형(예: 계정 자격 증명), 민감도 수준, 그리고 위치를 주석 처리했습니다. 그런 다음, 우리는 사용 가능한 7개의 주요 스마트폰 에이전트를 신중하게 벤치마크했습니다. 우리의 결과는 거의 모든 벤치마크된 에이전트들이 만족스럽지 못한 프라이버시 인식(RA)을 보여주며, 명시적인 힌트가 주어졌을 때도 성능이 60% 미만으로 유지됨을 보여줍니다. 전반적으로, 오픈소스 에이전트보다는 클로즈드소스 에이전트들이 더 나은 프라이버시 능력을 보여주었으며, Gemini 2.0-flash가 67%의 RA로 최고의 성능을 달성했습니다. 또한, 에이전트들의 프라이버시 탐지 능력은 시나리오의 민감도 수준과 높은 관련이 있음을 발견했는데, 즉 민감도 수준이 높은 시나리오일수록 일반적으로 더 잘 식별되는 경향이 있었습니다. 우리는 이러한 연구 결과가 스마트폰 에이전트에 대한 유틸리티와 프라이버시 간의 불균형적인 트레이드오프를 재고하도록 연구 커뮤니티에 영감을 줄 수 있기를 바랍니다. 우리의 코드와 벤치마크는 https://zhixin-l.github.io/SAPA-Bench에서 확인할 수 있습니다.
English
Smartphones bring significant convenience to users but also enable devices to
extensively record various types of personal information. Existing smartphone
agents powered by Multimodal Large Language Models (MLLMs) have achieved
remarkable performance in automating different tasks. However, as the cost,
these agents are granted substantial access to sensitive users' personal
information during this operation. To gain a thorough understanding of the
privacy awareness of these agents, we present the first large-scale benchmark
encompassing 7,138 scenarios to the best of our knowledge. In addition, for
privacy context in scenarios, we annotate its type (e.g., Account Credentials),
sensitivity level, and location. We then carefully benchmark seven available
mainstream smartphone agents. Our results demonstrate that almost all
benchmarked agents show unsatisfying privacy awareness (RA), with performance
remaining below 60% even with explicit hints. Overall, closed-source agents
show better privacy ability than open-source ones, and Gemini 2.0-flash
achieves the best, achieving an RA of 67%. We also find that the agents'
privacy detection capability is highly related to scenario sensitivity level,
i.e., the scenario with a higher sensitivity level is typically more
identifiable. We hope the findings enlighten the research community to rethink
the unbalanced utility-privacy tradeoff about smartphone agents. Our code and
benchmark are available at https://zhixin-l.github.io/SAPA-Bench.