ChatPaper.aiChatPaper

Les agents d'utilisation téléphonique respectent-ils votre vie privée ?

Do Phone-Use Agents Respect Your Privacy?

April 1, 2026
Auteurs: Zhengyang Tang, Ke Ji, Xidong Wang, Zihan Ye, Xinyuan Wang, Yiduo Guo, Ziniu Li, Chenxin Li, Jingyuan Hu, Shunian Chen, Tongxu Luo, Jiaxi Bi, Zeyu Qin, Shaobo Wang, Xin Lai, Pengyuan Lyu, Junyi Li, Can Xu, Chengquan Zhang, Han Hu, Ming Yan, Benyou Wang
cs.AI

Résumé

Nous étudions si les agents d'utilisation téléphonique respectent la vie privée lors de l'exécution de tâches mobiles bénignes. Cette question est restée difficile à résoudre car le comportement respectueux de la vie privée n'est pas opérationnalisé pour les agents téléphoniques, et les applications ordinaires ne révèlent pas exactement quelles données les agents saisissent dans quels champs de formulaire pendant l'exécution. Pour rendre cette question mesurable, nous présentons MyPhoneBench, un cadre d'évaluation vérifiable du comportement en matière de vie privée pour les agents mobiles. Nous opérationnalisons l'utilisation respectueuse de la vie privée du téléphone comme un accès par autorisation, une divulgation minimale et une mémoire contrôlée par l'utilisateur via un contrat de confidentialité minimal, iMy, et l'associons à des applications fictives instrumentées ainsi qu'à un audit basé sur des règles qui rendent les demandes d'autorisation inutiles, la redivulgation trompeuse et le remplissage inutile de formulaires observables et reproductibles. Sur cinq modèles de pointe testés sur 10 applications mobiles et 300 tâches, nous constatons que la réussite de la tâche, l'exécution respectueuse de la vie privée et l'utilisation ultérieure des préférences enregistrées sont des capacités distinctes, et qu'aucun modèle unique ne domine les trois. L'évaluation conjointe de la réussite et du respect de la vie privée modifie l'ordre des modèles par rapport à chaque métrique considérée isolément. Le mode d'échec le plus persistant parmi les modèles est la minimisation simple des données : les agents remplissent encore des champs personnels facultatifs que la tâche n'exige pas. Ces résultats montrent que les manquements à la vie privée proviennent d'une exécution trop serviable de tâches bénignes, et qu'une évaluation basée uniquement sur la réussite surestime la maturité au déploiement des agents téléphoniques actuels. Tous les codes, applications fictives et trajectoires d'agents sont publiquement disponibles à l'adresse ~ https://github.com/tangzhy/MyPhoneBench.
English
We study whether phone-use agents respect privacy while completing benign mobile tasks. This question has remained hard to answer because privacy-compliant behavior is not operationalized for phone-use agents, and ordinary apps do not reveal exactly what data agents type into which form entries during execution. To make this question measurable, we introduce MyPhoneBench, a verifiable evaluation framework for privacy behavior in mobile agents. We operationalize privacy-respecting phone use as permissioned access, minimal disclosure, and user-controlled memory through a minimal privacy contract, iMy, and pair it with instrumented mock apps plus rule-based auditing that make unnecessary permission requests, deceptive re-disclosure, and unnecessary form filling observable and reproducible. Across five frontier models on 10 mobile apps and 300 tasks, we find that task success, privacy-compliant task completion, and later-session use of saved preferences are distinct capabilities, and no single model dominates all three. Evaluating success and privacy jointly reshuffles the model ordering relative to either metric alone. The most persistent failure mode across models is simple data minimization: agents still fill optional personal entries that the task does not require. These results show that privacy failures arise from over-helpful execution of benign tasks, and that success-only evaluation overestimates the deployment readiness of current phone-use agents. All code, mock apps, and agent trajectories are publicly available at~ https://github.com/tangzhy/MyPhoneBench.
PDF11April 3, 2026