Anche i cammelli sanno usare i computer: sicurezza a livello di sistema per gli agenti di utilizzo informatico

Abstract

Gli agenti di IA sono vulnerabili ad attacchi di prompt injection, in cui contenuti malevoli dirottano il comportamento dell'agente per rubare credenziali o causare perdite finanziarie. L'unica difesa robusta nota è l'isolamento architetturale che separa rigorosamente la pianificazione affidabile dei compiti dalle osservazioni non affidabili dell'ambiente. Tuttavia, applicare questo progetto agli Agenti per l'Uso del Computer (CUA) – sistemi che automatizzano i compiti visualizzando schermi ed eseguendo azioni – presenta una sfida fondamentale: gli agenti attuali richiedono l'osservazione continua dello stato dell'interfaccia utente (UI) per determinare ogni azione, entrando in conflitto con l'isolamento richiesto per la sicurezza. Risolviamo questa tensione dimostrando che i flussi di lavoro dell'interfaccia utente, sebbene dinamici, sono strutturalmente prevedibili. Introduciamo la Pianificazione Single-Shot per i CUA, in cui un pianificatore affidabile genera un grafo di esecuzione completo con rami condizionali prima di qualsiasi osservazione di contenuti potenzialmente malevoli, fornendo garanzie verificabili di integrità del flusso di controllo contro iniezioni arbitrarie di istruzioni. Sebbene questo isolamento architetturale prevenga con successo le iniezioni di istruzioni, dimostriamo che sono necessarie misure aggiuntive per prevenire gli attacchi di Branch Steering, che manipolano gli elementi dell'interfaccia utente per innescare percorsi validi non intenzionali all'interno del piano. Valutiamo il nostro progetto su OSWorld e manteniamo fino al 57% delle prestazioni dei modelli all'avanguardia, migliorando al contempo le prestazioni dei modelli open-source più piccoli fino al 19%, dimostrando che sicurezza rigorosa e utilità possono coesistere nei CUA.

English

AI agents are vulnerable to prompt injection attacks, where malicious content hijacks agent behavior to steal credentials or cause financial loss. The only known robust defense is architectural isolation that strictly separates trusted task planning from untrusted environment observations. However, applying this design to Computer Use Agents (CUAs) -- systems that automate tasks by viewing screens and executing actions -- presents a fundamental challenge: current agents require continuous observation of UI state to determine each action, conflicting with the isolation required for security. We resolve this tension by demonstrating that UI workflows, while dynamic, are structurally predictable. We introduce Single-Shot Planning for CUAs, where a trusted planner generates a complete execution graph with conditional branches before any observation of potentially malicious content, providing provable control flow integrity guarantees against arbitrary instruction injections. Although this architectural isolation successfully prevents instruction injections, we show that additional measures are needed to prevent Branch Steering attacks, which manipulate UI elements to trigger unintended valid paths within the plan. We evaluate our design on OSWorld, and retain up to 57% of the performance of frontier models while improving performance for smaller open-source models by up to 19%, demonstrating that rigorous security and utility can coexist in CUAs.

Anche i cammelli sanno usare i computer: sicurezza a livello di sistema per gli agenti di utilizzo informatico

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Abstract

Support