Het blinde vlak van agentspecificiteit: Hoe goedaardige gebruikersinstructies kritieke kwetsbaarheden blootleggen in computergebruik-agents

Samenvatting

Computer-use agents (CUA's) kunnen tegenwoordig zelfstandig complexe taken voltooien in reële digitale omgevingen, maar wanneer ze misleid worden, kunnen ze ook worden ingezet om schadelijke acties programmatisch te automatiseren. Bestaande veiligheidsevaluaties richten zich grotendeels op expliciete bedreigingen zoals misbruik en promptinjectie, maar negeren een subtiele doch cruciale setting waarin gebruikersinstructies volledig goedaardig zijn en schade voortvloeit uit de taakcontext of uitvoeringsuitkomst. Wij introduceren OS-BLIND, een benchmark die CUA's evalueert onder onbedoelde aanvalsomstandigheden, bestaande uit 300 door mensen gemaakte taken verdeeld over 12 categorieën, 8 applicaties en 2 bedreigingsclusters: omgeving-ingebedde dreigingen en door de agent geïnitieerde schade. Onze evaluatie van frontier-modellen en agentframeworks toont aan dat de meeste CUA's een aanvalssuccesratio (ASR) van meer dan 90% halen, en zelfs het veiligheidsafgestemde Claude 4.5 Sonnet bereikt 73,0% ASR. Interessanter genoeg wordt deze kwetsbaarheid nog ernstiger, waarbij de ASR stijgt van 73,0% naar 92,7% wanneer Claude 4.5 Sonnet wordt ingezet in multi-agentsystemen. Onze analyse toont verder aan dat bestaande veiligheidsmaatregelen beperkte bescherming bieden wanneer gebruikersinstructies goedaardig zijn. Veiligheidsafstemming treedt voornamelijk in werking binnen de eerste paar stappen en engageert zelden opnieuw tijdens de daaropvolgende uitvoering. In multi-agentsystemen verhullen gedecentraliseerde subtaken de schadelijke intentie voor het model, waardoor veiligheidsafgestemde modellen falen. Wij zullen onze OS-BLIND benchmark vrijgeven om de bredere onderzoeksgemeenschap aan te moedigen deze veiligheidsuitdagingen verder te onderzoeken en aan te pakken.

English

Computer-use agents (CUAs) can now autonomously complete complex tasks in real digital environments, but when misled, they can also be used to automate harmful actions programmatically. Existing safety evaluations largely target explicit threats such as misuse and prompt injection, but overlook a subtle yet critical setting where user instructions are entirely benign and harm arises from the task context or execution outcome. We introduce OS-BLIND, a benchmark that evaluates CUAs under unintended attack conditions, comprising 300 human-crafted tasks across 12 categories, 8 applications, and 2 threat clusters: environment-embedded threats and agent-initiated harms. Our evaluation on frontier models and agentic frameworks reveals that most CUAs exceed 90% attack success rate (ASR), and even the safety-aligned Claude 4.5 Sonnet reaches 73.0% ASR. More interestingly, this vulnerability becomes even more severe, with ASR rising from 73.0% to 92.7% when Claude 4.5 Sonnet is deployed in multi-agent systems. Our analysis further shows that existing safety defenses provide limited protection when user instructions are benign. Safety alignment primarily activates within the first few steps and rarely re-engages during subsequent execution. In multi-agent systems, decomposed subtasks obscure the harmful intent from the model, causing safety-aligned models to fail. We will release our OS-BLIND to encourage the broader research community to further investigate and address these safety challenges.

Het blinde vlak van agentspecificiteit: Hoe goedaardige gebruikersinstructies kritieke kwetsbaarheden blootleggen in computergebruik-agents

The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents

Samenvatting

Support