Способные, но беспечные: следуют ли компьютерные агенты контекстуальной целостности?

Аннотация

Агенты компьютерного использования (CUAs) теперь действуют от имени пользователя в личных приложениях, таких как электронная почта, календари и списки задач. Этот межприложенческий доступ полезен, но также создаёт риск нарушения конфиденциальности, который в значительной степени игнорировался: когда агент работает в одном контексте, он может извлекать информацию из другого контекста, которая неуместна в данном контексте. Поэтому мы представляем AgentCIBench — оценочный инструмент, превращающий этот риск в исполняемые сценарии с детерминированной оценкой. Мы нацелились на три распространённых режима сбоя в CUAs: визуальное совместное расположение, когда агент извлекает запрещённые элементы, находящиеся рядом с целью задачи в пользовательском интерфейсе; чрезмерное раскрытие из-за неоднозначности задачи, когда агент выгружает плотное личное состояние в ответ на недостаточно конкретный запрос; и несоответствие получателю, когда агент отправляет контент адресату, для которого он неуместен. Мы оценили 15 передовых агентов и обнаружили удивительно высокий уровень отказов: 11 из 15 допускают утечку более чем в 50% сценариев, со средней утечкой 67,9%, и те же сбои сохраняются, когда агенты действуют комплексно в среде для выполнения задачи. Мы публикуем AgentCIBench, чтобы стимулировать разработку более безопасных агентов компьютерного использования, и позиционируем тестирование контекстного раскрытия как проверку безопасности перед развёртыванием.

English

Computer-use agents (CUAs) now act on a user's behalf across personal applications such as email, calendars, and to-do lists. This cross-application access is useful, but it also creates a privacy risk that has been largely overlooked: when an agent works in one context, it can pull in information from another that is inappropriate in that context. Hence, we introduce AgentCIBench, an evaluation harness that turns this risk into executable, deterministically scored scenarios. We target three common failure modes in CUAs: visual co-location, where the agent pulls in prohibited items that sit next to the task target in the UI; task-ambiguity overshare, where the agent dumps dense personal state in response to an under-specified prompt; and recipient misalignment, where the agent sends content to an addressee for whom it is inappropriate. We evaluate 15 frontier agents and find a surprisingly high failure rate: 11 of 15 leak on more than 50% of scenarios, with an average leakage of 67.9%, and the same failures persist when agents act end-to-end in the environment to complete the task. We release AgentCIBench to encourage the development of safer computer-use agents and position contextual disclosure testing as a pre-deployment safety check.