휴대폰 사용 에이전트는 사용자의 프라이버시를 존중할까요?
Do Phone-Use Agents Respect Your Privacy?
April 1, 2026
저자: Zhengyang Tang, Ke Ji, Xidong Wang, Zihan Ye, Xinyuan Wang, Yiduo Guo, Ziniu Li, Chenxin Li, Jingyuan Hu, Shunian Chen, Tongxu Luo, Jiaxi Bi, Zeyu Qin, Shaobo Wang, Xin Lai, Pengyuan Lyu, Junyi Li, Can Xu, Chengquan Zhang, Han Hu, Ming Yan, Benyou Wang
cs.AI
초록
우리는 휴대폰 사용 에이전트가 일반적인 모바일 작업을 수행하면서 프라이버시를 존중하는지 연구한다. 이 문제는 휴대폰 사용 에이전트를 위한 프라이버시 준수 행동이 조작적으로 정의되지 않았으며, 일반 앱들이 실행 과정에서 에이전트가 어떤 데이터를 어떤 양식 항목에 입력하는지 정확히 드러내지 않기 때문에 답하기 어려운 것으로 남아 있었다. 이 문제를 측정 가능하게 만들기 위해 우리는 모바일 에이전트의 프라이버시 행동을 검증 가능하게 평가하는 프레임워크인 MyPhoneBench을 소개한다. 우리는 프라이버시 존중적인 휴대폰 사용을 허가된 접근, 최소한의 정보 공개, 사용자 제어 메모리로 조작적으로 정의하며, 이를 최소한의 프라이버시 계약인 iMy를 통해 구현한다. 또한 계측된 모의 앱과 규칙 기반 감사를 결합하여 불필요한 권한 요청, 기만적인 재공개, 불필요한 양식 작성이 관찰 가능하고 재현 가능하도록 한다. 10개의 모바일 앱과 300개 작업에 대해 5개의 최첨단 모델을 평가한 결과, 작업 성공률, 프라이버시 준수 작업 완료율, 이후 세션에서 저장된 선호도 사용은 각각 별개의 능력이며, 세 가지 모두에서 우월한 단일 모델은 존재하지 않음을 발견했다. 성공과 프라이버시를 함께 평가하면 각 지표만单独으로 사용할 때와 비교해 모델 순위가 재편된다. 모든 모델에서 가장 지속적으로 나타나는 실패 유형은 단순한 데이터 최소화 원칙 위반이다. 즉, 에이전트들은 작업에 필요하지 않은 선택적 개인정보 항목을 여전히 채운다. 이러한 결과는 프라이버시 침해가 선의의 작업을 지나치게 적극적으로 수행하는 과정에서 발생하며, 성공률만을 평가하는 것은 현재 휴대폰 사용 에이전트의 실제 배포 준비도를 과대평가함을 보여준다. 모든 코드, 모의 앱, 에이전트 실행 궤적은 ~https://github.com/tangzhy/MyPhoneBench에서 공개되어 있다.
English
We study whether phone-use agents respect privacy while completing benign mobile tasks. This question has remained hard to answer because privacy-compliant behavior is not operationalized for phone-use agents, and ordinary apps do not reveal exactly what data agents type into which form entries during execution. To make this question measurable, we introduce MyPhoneBench, a verifiable evaluation framework for privacy behavior in mobile agents. We operationalize privacy-respecting phone use as permissioned access, minimal disclosure, and user-controlled memory through a minimal privacy contract, iMy, and pair it with instrumented mock apps plus rule-based auditing that make unnecessary permission requests, deceptive re-disclosure, and unnecessary form filling observable and reproducible. Across five frontier models on 10 mobile apps and 300 tasks, we find that task success, privacy-compliant task completion, and later-session use of saved preferences are distinct capabilities, and no single model dominates all three. Evaluating success and privacy jointly reshuffles the model ordering relative to either metric alone. The most persistent failure mode across models is simple data minimization: agents still fill optional personal entries that the task does not require. These results show that privacy failures arise from over-helpful execution of benign tasks, and that success-only evaluation overestimates the deployment readiness of current phone-use agents. All code, mock apps, and agent trajectories are publicly available at~ https://github.com/tangzhy/MyPhoneBench.