Fähig, aber nachlässig: Befolgen Computer-Nutzungs-Agenten die kontextuelle Integrität?

Zusammenfassung

Computer-Nutzungsagenten (CNAs) handeln heute im Auftrag von Nutzern in persönlichen Anwendungen wie E-Mail, Kalendern und Aufgabenlisten. Dieser anwendungsübergreifende Zugriff ist nützlich, schafft aber auch ein Datenschutzrisiko, das weitgehend übersehen wurde: Wenn ein Agent in einem Kontext arbeitet, kann er Informationen aus einem anderen Kontext abrufen, die in diesem Kontext unangemessen sind. Daher führen wir AgentCIBench ein, eine Evaluierungsumgebung, die dieses Risiko in ausführbare, deterministisch bewertbare Szenarien überführt. Wir adressieren drei häufige Fehlermodi bei CNAs: visuelle Kollokation, bei der der Agent verbotene Elemente abruft, die im UI neben dem Aufgabenobjekt platziert sind; Übermittlung aufgrund von Aufgabenunschärfe, bei der der Agent als Reaktion auf eine unzureichend spezifizierte Aufforderung umfangreiche persönliche Zustandsdaten ausgibt; sowie Empfängerfehlausrichtung, bei der der Agent Inhalte an einen Adressaten sendet, für den sie unangemessen sind. Wir evaluieren 15 führende Agenten und stellen eine überraschend hohe Fehlerrate fest: 11 von 15 Agenten geben in mehr als 50% der Szenarien Daten preis, bei einer durchschnittlichen Datenpreisgabe von 67,9%. Dieselben Fehler treten auch auf, wenn die Agenten end-to-end in der Umgebung agieren, um die Aufgabe zu erfüllen. Wir veröffentlichen AgentCIBench, um die Entwicklung sichererer Computer-Nutzungsagenten zu fördern, und positionieren das Testen kontextueller Offenlegung als Sicherheitscheck vor der Bereitstellung.

English

Computer-use agents (CUAs) now act on a user's behalf across personal applications such as email, calendars, and to-do lists. This cross-application access is useful, but it also creates a privacy risk that has been largely overlooked: when an agent works in one context, it can pull in information from another that is inappropriate in that context. Hence, we introduce AgentCIBench, an evaluation harness that turns this risk into executable, deterministically scored scenarios. We target three common failure modes in CUAs: visual co-location, where the agent pulls in prohibited items that sit next to the task target in the UI; task-ambiguity overshare, where the agent dumps dense personal state in response to an under-specified prompt; and recipient misalignment, where the agent sends content to an addressee for whom it is inappropriate. We evaluate 15 frontier agents and find a surprisingly high failure rate: 11 of 15 leak on more than 50% of scenarios, with an average leakage of 67.9%, and the same failures persist when agents act end-to-end in the environment to complete the task. We release AgentCIBench to encourage the development of safer computer-use agents and position contextual disclosure testing as a pre-deployment safety check.