Kamele können auch Computer benutzen: Systemsicherheit für Computer-Nutzungs-Agenten

papers.abstract

KI-Agenten sind anfällig für Prompt-Injection-Angriffe, bei denen bösartige Inhalte das Agentenverhalten kapern, um Anmeldedaten zu stehlen oder finanzielle Verluste zu verursachen. Die einzige bekannte robuste Verteidigung ist architektonische Isolation, die vertrauenswürdige Aufgabenplanung strikt von nicht vertrauenswürdigen Umgebungsbeobachtungen trennt. Die Anwendung dieses Designs auf Computer Use Agents (CUAs) – Systeme, die Aufgaben automatisieren, indem sie Bildschirme betrachten und Aktionen ausführen – stellt jedoch eine grundlegende Herausforderung dar: Aktuelle Agenten benötigen eine kontinuierliche Beobachtung des UI-Zustands, um jede Aktion zu bestimmen, was im Konflikt mit der für die Sicherheit erforderlichen Isolation steht. Wir lösen diesen Widerspruch, indem wir zeigen, dass UI-Workflows zwar dynamisch, aber strukturell vorhersehbar sind. Wir führen Einzelplanung für CUAs ein, bei der ein vertrauenswürdiger Planer einen vollständigen Ausführungsgraphen mit bedingten Verzweigungen erstellt, bevor potenziell bösartige Inhalte beobachtet werden, und dadurch nachweisbare Kontrollflussintegritätsgarantien gegen beliebige Befehlsinjektionen bietet. Obwohl diese architektonische Isolation Befehlsinjektionen erfolgreich verhindert, zeigen wir, dass zusätzliche Maßnahmen erforderlich sind, um Branch-Steering-Angriffe zu verhindern, bei denen UI-Elemente manipuliert werden, um unbeabsichtigte gültige Pfade innerhalb des Plans auszulösen. Wir evaluieren unser Design auf OSWorld und behalten bis zu 57 % der Leistung von Spitzenmodellen bei, während wir die Leistung kleinerer Open-Source-Modelle um bis zu 19 % steigern, was demonstriert, dass strenge Sicherheit und Nutzbarkeit in CUAs koexistieren können.

English

AI agents are vulnerable to prompt injection attacks, where malicious content hijacks agent behavior to steal credentials or cause financial loss. The only known robust defense is architectural isolation that strictly separates trusted task planning from untrusted environment observations. However, applying this design to Computer Use Agents (CUAs) -- systems that automate tasks by viewing screens and executing actions -- presents a fundamental challenge: current agents require continuous observation of UI state to determine each action, conflicting with the isolation required for security. We resolve this tension by demonstrating that UI workflows, while dynamic, are structurally predictable. We introduce Single-Shot Planning for CUAs, where a trusted planner generates a complete execution graph with conditional branches before any observation of potentially malicious content, providing provable control flow integrity guarantees against arbitrary instruction injections. Although this architectural isolation successfully prevents instruction injections, we show that additional measures are needed to prevent Branch Steering attacks, which manipulate UI elements to trigger unintended valid paths within the plan. We evaluate our design on OSWorld, and retain up to 57% of the performance of frontier models while improving performance for smaller open-source models by up to 19%, demonstrating that rigorous security and utility can coexist in CUAs.

Kamele können auch Computer benutzen: Systemsicherheit für Computer-Nutzungs-Agenten

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

papers.abstract

Support