Capaces pero descuidados: ¿Siguen los agentes de uso computacional la Integridad Contextual?

Resumen

Los agentes de uso informático (CUAs) ahora actúan en nombre del usuario en aplicaciones personales como el correo electrónico, los calendarios y las listas de tareas pendientes. Este acceso entre aplicaciones es útil, pero también crea un riesgo de privacidad que ha sido en gran medida pasado por alto: cuando un agente trabaja en un contexto, puede extraer información de otro contexto que resulta inapropiada en el primero. Por ello, presentamos AgentCIBench, un banco de pruebas de evaluación que convierte este riesgo en escenarios ejecutables y puntuados de forma determinista. Abordamos tres modos de fallo comunes en los CUAs: colocación visual, donde el agente extrae elementos prohibidos que se ubican junto al objetivo de la tarea en la interfaz de usuario; sobreexposición por ambigüedad de la tarea, donde el agente vierte un denso estado personal en respuesta a una instrucción poco especificada; y desalineación del destinatario, donde el agente envía contenido a un destinatario para quien resulta inapropiado. Evaluamos 15 agentes de vanguardia y encontramos una tasa de fallos sorprendentemente alta: 11 de 15 filtran información en más del 50% de los escenarios, con una fuga promedio del 67,9%, y los mismos fallos persisten cuando los agentes actúan de extremo a extremo en el entorno para completar la tarea. Publicamos AgentCIBench para fomentar el desarrollo de agentes informáticos más seguros y posicionar las pruebas de divulgación contextual como una verificación de seguridad previa al despliegue.

English

Computer-use agents (CUAs) now act on a user's behalf across personal applications such as email, calendars, and to-do lists. This cross-application access is useful, but it also creates a privacy risk that has been largely overlooked: when an agent works in one context, it can pull in information from another that is inappropriate in that context. Hence, we introduce AgentCIBench, an evaluation harness that turns this risk into executable, deterministically scored scenarios. We target three common failure modes in CUAs: visual co-location, where the agent pulls in prohibited items that sit next to the task target in the UI; task-ambiguity overshare, where the agent dumps dense personal state in response to an under-specified prompt; and recipient misalignment, where the agent sends content to an addressee for whom it is inappropriate. We evaluate 15 frontier agents and find a surprisingly high failure rate: 11 of 15 leak on more than 50% of scenarios, with an average leakage of 67.9%, and the same failures persist when agents act end-to-end in the environment to complete the task. We release AgentCIBench to encourage the development of safer computer-use agents and position contextual disclosure testing as a pre-deployment safety check.