¿Respetan los agentes de uso telefónico su privacidad?

Resumen

Investigamos si los agentes de uso telefónico respetan la privacidad al completar tareas móviles benignas. Esta pregunta ha sido difícil de responder porque el comportamiento conforme con la privacidad no está operacionalizado para los agentes de uso telefónico, y las aplicaciones ordinarias no revelan exactamente qué datos introducen los agentes en qué campos de formulario durante la ejecución. Para hacer esta pregunta medible, presentamos MyPhoneBench, un marco de evaluación verificable para el comportamiento de privacidad en agentes móviles. Operacionalizamos el uso del teléfono que respeta la privacidad como acceso autorizado, divulgación mínima y memoria controlada por el usuario mediante un contrato de privacidad mínimo, iMy, y lo combinamos con aplicaciones simuladas instrumentadas más auditorías basadas en reglas que hacen que las solicitudes de permisos innecesarias, la redivulgación engañosa y el llenado de formularios innecesario sean observables y reproducibles. En cinco modelos de vanguardia, evaluados en 10 aplicaciones móviles y 300 tareas, encontramos que el éxito en la tarea, la finalización de la tarea conforme con la privacidad y el uso posterior de las preferencias guardadas son capacidades distintas, y ningún modelo domina las tres. La evaluación conjunta del éxito y la privacidad reordena la clasificación de los modelos en comparación con cualquiera de las métricas por separado. El modo de fallo más persistente en todos los modelos es la minimización simple de datos: los agentes aún llenan campos personales opcionales que la tarea no requiere. Estos resultados muestran que los fallos de privacidad surgen de una ejecución excesivamente servicial de tareas benignas, y que la evaluación basada únicamente en el éxito sobreestima la preparación para el despliegue de los agentes de uso telefónico actuales. Todo el código, las aplicaciones simuladas y las trayectorias de los agentes están disponibles públicamente en https://github.com/tangzhy/MyPhoneBench.

English

We study whether phone-use agents respect privacy while completing benign mobile tasks. This question has remained hard to answer because privacy-compliant behavior is not operationalized for phone-use agents, and ordinary apps do not reveal exactly what data agents type into which form entries during execution. To make this question measurable, we introduce MyPhoneBench, a verifiable evaluation framework for privacy behavior in mobile agents. We operationalize privacy-respecting phone use as permissioned access, minimal disclosure, and user-controlled memory through a minimal privacy contract, iMy, and pair it with instrumented mock apps plus rule-based auditing that make unnecessary permission requests, deceptive re-disclosure, and unnecessary form filling observable and reproducible. Across five frontier models on 10 mobile apps and 300 tasks, we find that task success, privacy-compliant task completion, and later-session use of saved preferences are distinct capabilities, and no single model dominates all three. Evaluating success and privacy jointly reshuffles the model ordering relative to either metric alone. The most persistent failure mode across models is simple data minimization: agents still fill optional personal entries that the task does not require. These results show that privacy failures arise from over-helpful execution of benign tasks, and that success-only evaluation overestimates the deployment readiness of current phone-use agents. All code, mock apps, and agent trajectories are publicly available at~ https://github.com/tangzhy/MyPhoneBench.

¿Respetan los agentes de uso telefónico su privacidad?

Do Phone-Use Agents Respect Your Privacy?

Resumen

Support