Bekwaam maar onzorgvuldig: volgen computergebruik-agenten de contextuele integriteit?

Samenvatting

Computergebruikagenten (CUAs) handelen nu namens een gebruiker in persoonlijke toepassingen zoals e-mail, agenda's en takenlijsten. Deze toegang tot meerdere toepassingen is nuttig, maar creëert ook een grotendeels over het hoofd gezien privacyrisico: wanneer een agent in één context werkt, kan hij informatie uit een andere context halen die in die context ongepast is. Daarom introduceren we AgentCIBench, een evaluatie-instrument dat dit risico omzet in uitvoerbare, deterministisch gescoorde scenario's. We richten ons op drie veelvoorkomende faalmodi in CUAs: visuele co-locatie, waarbij de agent verboden items meeneemt die naast het taakdoel in de gebruikersinterface staan; overdelen als gevolg van taakambiguïteit, waarbij de agent een hoop persoonlijke status dumpt als reactie op een te vage opdracht; en misalignering van de ontvanger, waarbij de agent inhoud naar een geadresseerde stuurt voor wie deze ongepast is. We evalueren 15 geavanceerde agenten en vinden een verrassend hoog faalpercentage: 11 van de 15 lekken in meer dan 50% van de scenario's, met een gemiddelde lekkage van 67,9%, en dezelfde fouten blijven bestaan wanneer agenten end-to-end in de omgeving handelen om de taak te voltooien. We geven AgentCIBench vrij om de ontwikkeling van veiligere computergebruikagenten te stimuleren en positioneren het testen van contextuele openbaarmaking als een veiligheidscontrole vóór implementatie.

English

Computer-use agents (CUAs) now act on a user's behalf across personal applications such as email, calendars, and to-do lists. This cross-application access is useful, but it also creates a privacy risk that has been largely overlooked: when an agent works in one context, it can pull in information from another that is inappropriate in that context. Hence, we introduce AgentCIBench, an evaluation harness that turns this risk into executable, deterministically scored scenarios. We target three common failure modes in CUAs: visual co-location, where the agent pulls in prohibited items that sit next to the task target in the UI; task-ambiguity overshare, where the agent dumps dense personal state in response to an under-specified prompt; and recipient misalignment, where the agent sends content to an addressee for whom it is inappropriate. We evaluate 15 frontier agents and find a surprisingly high failure rate: 11 of 15 leak on more than 50% of scenarios, with an average leakage of 67.9%, and the same failures persist when agents act end-to-end in the environment to complete the task. We release AgentCIBench to encourage the development of safer computer-use agents and position contextual disclosure testing as a pre-deployment safety check.