Capables mais négligents : les agents d'utilisation d'ordinateur suivent-ils l'intégrité contextuelle ?

Résumé

Les agents d'utilisation d'ordinateur (CUA) agissent désormais pour le compte d'un utilisateur dans des applications personnelles telles que la messagerie électronique, les calendriers et les listes de tâches. Cet accès inter-applications est utile, mais il crée également un risque pour la vie privée largement négligé : lorsqu'un agent travaille dans un contexte, il peut extraire des informations provenant d'un autre contexte, inappropriées dans ce premier. Nous introduisons donc AgentCIBench, un harnais d'évaluation qui transforme ce risque en scénarios exécutables et évalués de manière déterministe. Nous ciblons trois modes de défaillance courants dans les CUA : la co-localisation visuelle, où l'agent extrait des éléments interdits situés à côté de la cible de la tâche dans l'interface utilisateur ; le sur-partage dû à l'ambiguïté de la tâche, où l'agent déverse un état personnel dense en réponse à une invite sous-spécifiée ; et le désalignement du destinataire, où l'agent envoie un contenu à un destinataire pour lequel il est inapproprié. Nous évaluons 15 agents de pointe et constatons un taux d'échec étonnamment élevé : 11 des 15 agents fuient dans plus de 50 % des scénarios, avec une fuite moyenne de 67,9 %, et les mêmes échecs persistent lorsque les agents agissent de bout en bout dans l'environnement pour accomplir la tâche. Nous publions AgentCIBench pour encourager le développement d'agents d'utilisation d'ordinateur plus sûrs et positionnons le test de divulgation contextuelle comme un contrôle de sécurité avant déploiement.

English

Computer-use agents (CUAs) now act on a user's behalf across personal applications such as email, calendars, and to-do lists. This cross-application access is useful, but it also creates a privacy risk that has been largely overlooked: when an agent works in one context, it can pull in information from another that is inappropriate in that context. Hence, we introduce AgentCIBench, an evaluation harness that turns this risk into executable, deterministically scored scenarios. We target three common failure modes in CUAs: visual co-location, where the agent pulls in prohibited items that sit next to the task target in the UI; task-ambiguity overshare, where the agent dumps dense personal state in response to an under-specified prompt; and recipient misalignment, where the agent sends content to an addressee for whom it is inappropriate. We evaluate 15 frontier agents and find a surprisingly high failure rate: 11 of 15 leak on more than 50% of scenarios, with an average leakage of 67.9%, and the same failures persist when agents act end-to-end in the environment to complete the task. We release AgentCIBench to encourage the development of safer computer-use agents and position contextual disclosure testing as a pre-deployment safety check.