Os Agentes de Uso de Telefone Respeitam a Sua Privacidade?

Resumo

Investigamos se os agentes de uso de telefone respeitam a privacidade ao executar tarefas móveis benignas. Esta questão tem permanecido difícil de responder porque o comportamento compatível com a privacidade não é operacionalizado para agentes de uso de telefone, e as aplicações comuns não revelam exatamente quais dados os agentes inserem em quais campos de formulário durante a execução. Para tornar esta questão mensurável, introduzimos o MyPhoneBench, uma estrutura de avaliação verificável para o comportamento de privacidade em agentes móveis. Operacionalizamos o uso do telefone respeitoso da privacidade como acesso permissionado, divulgação mínima e memória controlada pelo utilizador através de um contrato de privacidade mínimo, iMy, e emparelhamo-lo com aplicações simuladas instrumentadas mais auditoria baseada em regras que tornam pedidos de permissão desnecessários, redivulgação enganosa e preenchimento desnecessário de formulários observáveis e reproduzíveis. Em cinco modelos de vanguarda, testados em 10 aplicações móveis e 300 tarefas, descobrimos que o sucesso da tarefa, a conclusão da tarefa em conformidade com a privacidade e o uso posterior de preferências guardadas são capacidades distintas, e nenhum modelo único domina todas as três. A avaliação conjunta do sucesso e da privacidade reorganiza a ordenação dos modelos em relação a qualquer uma das métricas isoladamente. O modo de falha mais persistente entre os modelos é a minimização simples de dados: os agentes ainda preenchem campos pessoais opcionais que a tarefa não exige. Estes resultados mostram que as falhas de privacidade surgem de uma execução excessivamente prestativa de tarefas benignas, e que a avaliação apenas baseada no sucesso sobrestima a prontidão para implantação dos atuais agentes de uso de telefone. Todo o código, aplicações simuladas e trajetórias dos agentes estão publicamente disponíveis em~ https://github.com/tangzhy/MyPhoneBench.

English

We study whether phone-use agents respect privacy while completing benign mobile tasks. This question has remained hard to answer because privacy-compliant behavior is not operationalized for phone-use agents, and ordinary apps do not reveal exactly what data agents type into which form entries during execution. To make this question measurable, we introduce MyPhoneBench, a verifiable evaluation framework for privacy behavior in mobile agents. We operationalize privacy-respecting phone use as permissioned access, minimal disclosure, and user-controlled memory through a minimal privacy contract, iMy, and pair it with instrumented mock apps plus rule-based auditing that make unnecessary permission requests, deceptive re-disclosure, and unnecessary form filling observable and reproducible. Across five frontier models on 10 mobile apps and 300 tasks, we find that task success, privacy-compliant task completion, and later-session use of saved preferences are distinct capabilities, and no single model dominates all three. Evaluating success and privacy jointly reshuffles the model ordering relative to either metric alone. The most persistent failure mode across models is simple data minimization: agents still fill optional personal entries that the task does not require. These results show that privacy failures arise from over-helpful execution of benign tasks, and that success-only evaluation overestimates the deployment readiness of current phone-use agents. All code, mock apps, and agent trajectories are publicly available at~ https://github.com/tangzhy/MyPhoneBench.

Os Agentes de Uso de Telefone Respeitam a Sua Privacidade?

Do Phone-Use Agents Respect Your Privacy?

Resumo

Support