Il Punto Cieco della Sicurezza degli Agenti: Come Istruzioni Utente Benigne Espongono Vulnerabilità Critiche negli Agenti di Utilizzo del Computer
The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents
April 12, 2026
Autori: Xuwei Ding, Skylar Zhai, Linxin Song, Jiate Li, Taiwei Shi, Nicholas Meade, Siva Reddy, Jian Kang, Jieyu Zhao
cs.AI
Abstract
Gli agenti di utilizzo informatico (CUA) possono ora completare autonomamente compiti complessi in ambienti digitali reali, ma quando fuorviati possono essere utilizzati per automatizzare azioni dannose a livello programmatico. Le valutazioni di sicurezza esistenti prendono principalmente di mira minacce esplicite come l'uso improprio e l'iniezione di prompt, ma trascurano un'ambientazione sottile ma critica in cui le istruzioni dell'utente sono del tutto benigne e il danno sorge dal contesto del compito o dall'esito dell'esecuzione. Introduciamo OS-BLIND, un benchmark che valuta i CUA in condizioni di attacco non intenzionali, comprendente 300 compiti creati da esseri umani in 12 categorie, 8 applicazioni e 2 cluster di minacce: minacce incorporate nell'ambiente e danni avviati dall'agente. La nostra valutazione su modelli all'avanguardia e framework agentivi rivela che la maggior parte dei CUA supera il 90% di tasso di successo dell'attacco (ASR), e persino il Claude 4.5 Sonnet allineato alla sicurezza raggiunge il 73,0% di ASR. Ancora più interessante, questa vulnerabilità diventa ancor più grave, con l'ASR che sale dal 73,0% al 92,7% quando Claude 4.5 Sonnet viene impiegato in sistemi multi-agente. La nostra analisi mostra inoltre che le difese di sicurezza esistenti offrono una protezione limitata quando le istruzioni dell'utente sono benigne. L'allineamento di sicurezza si attiva principalmente entro i primi pochi passi e raramente si riattiva durante l'esecuzione successiva. Nei sistemi multi-agente, i sottocompiti scomposti oscurano l'intento dannoso al modello, causando il fallimento dei modelli allineati alla sicurezza. Rilasceremo il nostro OS-BLIND per incoraggiare la più ampia comunità di ricerca a investigare ulteriormente e affrontare queste sfide di sicurezza.
English
Computer-use agents (CUAs) can now autonomously complete complex tasks in real digital environments, but when misled, they can also be used to automate harmful actions programmatically. Existing safety evaluations largely target explicit threats such as misuse and prompt injection, but overlook a subtle yet critical setting where user instructions are entirely benign and harm arises from the task context or execution outcome. We introduce OS-BLIND, a benchmark that evaluates CUAs under unintended attack conditions, comprising 300 human-crafted tasks across 12 categories, 8 applications, and 2 threat clusters: environment-embedded threats and agent-initiated harms. Our evaluation on frontier models and agentic frameworks reveals that most CUAs exceed 90% attack success rate (ASR), and even the safety-aligned Claude 4.5 Sonnet reaches 73.0% ASR. More interestingly, this vulnerability becomes even more severe, with ASR rising from 73.0% to 92.7% when Claude 4.5 Sonnet is deployed in multi-agent systems. Our analysis further shows that existing safety defenses provide limited protection when user instructions are benign. Safety alignment primarily activates within the first few steps and rarely re-engages during subsequent execution. In multi-agent systems, decomposed subtasks obscure the harmful intent from the model, causing safety-aligned models to fail. We will release our OS-BLIND to encourage the broader research community to further investigate and address these safety challenges.