Respecteren telefoongebruiksagentschappen uw privacy?

Samenvatting

Wij onderzoeken of agenten voor telefoongebruik de privacy respecteren bij het uitvoeren van onschadelijke mobiele taken. Deze vraag is tot nu toe moeilijk te beantwoorden geweest omdat privacyconform gedrag niet is geoperationaliseerd voor dergelijke agenten, en gewone apps niet onthullen welke gegevens agenten precies in welke formuliervelden invoeren tijdens de uitvoering. Om deze vraag meetbaar te maken, introduceren wij MyPhoneBench, een verifieerbaar evaluatiekader voor privacygedrag bij mobiele agenten. Wij operationaliseren privacyrespectvol telefoongebruik als toegang op basis van toestemming, minimale gegevensopenbaarmaking en gebruikersgecontroleerd geheugen via een minimale privacyovereenkomst, iMy. Dit koppelen wij aan geïnstrumenteerde mock-apps en op regels gebaseerde auditing die onnodige machtigingsverzoeken, misleidende her-openbaarmaking en onnodig formulierinvullen observeerbaar en reproduceerbaar maken. Op basis van vijf toonaangevende modellen, getest op 10 mobiele apps en 300 taken, concluderen wij dat taaksucces, privacyconforme taakuitvoering en het latere gebruik van opgeslagen voorkeuren verschillende capaciteiten zijn. Geen enkel model presteert op alle drie de aspecten het beste. Gezamenlijke evaluatie van succes en privacy leidt tot een andere modelrangschikking dan bij afzonderlijke beoordeling van elke metriek. De meest hardnekkige foutmodus bij alle modellen is eenvoudige gegevensminimalisatie: agenten vullen nog steeds optionele persoonlijke velden in die de taak niet vereist. Deze resultaten tonen aan dat privacyschendingen ontstaan door een overdreven behulpzame uitvoering van onschadelijke taken, en dat evaluatie uitsluitend op succes de implementatiegereedheid van huidige agenten voor telefoongebruik overschat. Alle code, mock-apps en agenttrajecten zijn openbaar beschikbaar op https://github.com/tangzhy/MyPhoneBench.

English

We study whether phone-use agents respect privacy while completing benign mobile tasks. This question has remained hard to answer because privacy-compliant behavior is not operationalized for phone-use agents, and ordinary apps do not reveal exactly what data agents type into which form entries during execution. To make this question measurable, we introduce MyPhoneBench, a verifiable evaluation framework for privacy behavior in mobile agents. We operationalize privacy-respecting phone use as permissioned access, minimal disclosure, and user-controlled memory through a minimal privacy contract, iMy, and pair it with instrumented mock apps plus rule-based auditing that make unnecessary permission requests, deceptive re-disclosure, and unnecessary form filling observable and reproducible. Across five frontier models on 10 mobile apps and 300 tasks, we find that task success, privacy-compliant task completion, and later-session use of saved preferences are distinct capabilities, and no single model dominates all three. Evaluating success and privacy jointly reshuffles the model ordering relative to either metric alone. The most persistent failure mode across models is simple data minimization: agents still fill optional personal entries that the task does not require. These results show that privacy failures arise from over-helpful execution of benign tasks, and that success-only evaluation overestimates the deployment readiness of current phone-use agents. All code, mock apps, and agent trajectories are publicly available at~ https://github.com/tangzhy/MyPhoneBench.

Respecteren telefoongebruiksagentschappen uw privacy?

Do Phone-Use Agents Respect Your Privacy?

Samenvatting

Support