Камелы тоже умеют пользоваться компьютерами: системная безопасность для агентов компьютерного взаимодействия

Аннотация

Искусственные интеллектуальные агенты уязвимы для атак внедрения промптов, при которых вредоносное содержание перехватывает управление поведением агента для кражи учетных данных или причинения финансового ущерба. Единственной известной надежной защитой является архитектурная изоляция, которая строго отделяет доверенное планирование задач от наблюдений за недоверенной средой. Однако применение этого подхода к агентам компьютерного взаимодействия (АКВ) — системам, автоматизирующим задачи путем просмотра экранов и выполнения действий — представляет фундаментальную проблему: современные агенты требуют непрерывного наблюдения за состоянием пользовательского интерфейса (UI) для определения каждого действия, что противоречит изоляции, необходимой для безопасности. Мы разрешаем это противоречие, демонстрируя, что рабочие процессы UI, будучи динамичными, структурно предсказуемы. Мы представляем однократное планирование для АКВ, при котором доверенный планировщик генерирует полный граф выполнения с условными ветвлениями до любого наблюдения потенциально вредоносного контента, обеспечивая доказуемые гарантии целостности потока управления против произвольных инъекций инструкций. Хотя эта архитектурная изоляция успешно предотвращает инъекции инструкций, мы показываем, что необходимы дополнительные меры для предотвращения атак перенаправления ветвей, которые манипулируют элементами UI для запуска непредусмотренных допустимых путей в плане. Мы оцениваем нашу разработку на OSWorld и сохраняем до 57% производительности передовых моделей, одновременно повышая производительность менее крупных открытых моделей до 19%, демонстрируя, что строгая безопасность и практическая полезность могут сосуществовать в АКВ.

English

AI agents are vulnerable to prompt injection attacks, where malicious content hijacks agent behavior to steal credentials or cause financial loss. The only known robust defense is architectural isolation that strictly separates trusted task planning from untrusted environment observations. However, applying this design to Computer Use Agents (CUAs) -- systems that automate tasks by viewing screens and executing actions -- presents a fundamental challenge: current agents require continuous observation of UI state to determine each action, conflicting with the isolation required for security. We resolve this tension by demonstrating that UI workflows, while dynamic, are structurally predictable. We introduce Single-Shot Planning for CUAs, where a trusted planner generates a complete execution graph with conditional branches before any observation of potentially malicious content, providing provable control flow integrity guarantees against arbitrary instruction injections. Although this architectural isolation successfully prevents instruction injections, we show that additional measures are needed to prevent Branch Steering attacks, which manipulate UI elements to trigger unintended valid paths within the plan. We evaluate our design on OSWorld, and retain up to 57% of the performance of frontier models while improving performance for smaller open-source models by up to 19%, demonstrating that rigorous security and utility can coexist in CUAs.

Камелы тоже умеют пользоваться компьютерами: системная безопасность для агентов компьютерного взаимодействия

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Аннотация

Support