O Ponto Cego da Segurança de Agentes: Como Instruções Benignas do Usuário Exponenciam Vulnerabilidades Críticas em Agentes de Uso Computacional

Resumo

Os agentes de uso computacional (CUAs) já conseguem concluir tarefas complexas de forma autónoma em ambientes digitais reais, mas, quando enganados, também podem ser usados para automatizar ações prejudiciais de forma programática. As avaliações de segurança existentes visam maioritariamente ameaças explícitas, como uso indevido e injeção de instruções, mas negligenciam um cenário subtil ainda que crítico, em que as instruções do utilizador são totalmente benignas e o dano surge do contexto da tarefa ou do resultado da execução. Apresentamos o OS-BLIND, um benchmark que avalia CUAs sob condições de ataque não intencionais, compreendendo 300 tarefas elaboradas manualmente em 12 categorias, 8 aplicações e 2 clusters de ameaças: ameaças incorporadas no ambiente e danos iniciados pelo agente. A nossa avaliação em modelos de fronteira e estruturas agentivas revela que a maioria dos CUAs excede 90% de taxa de sucesso de ataque (ASR), e até o Claude 4.5 Sonnet, alinhado com segurança, atinge 73,0% de ASR. Mais interessante ainda, esta vulnerabilidade torna-se ainda mais grave, com a ASR a subir de 73,0% para 92,7% quando o Claude 4.5 Sonnet é implementado em sistemas multiagente. A nossa análise mostra ainda que as defesas de segurança existentes oferecem proteção limitada quando as instruções do utilizador são benignas. O alinhamento de segurança ativa-se principalmente nos primeiros passos e raramente se reativa durante a execução subsequente. Em sistemas multiagente, as subtarefas decompostas obscurecem a intenção prejudicial perante o modelo, fazendo com que os modelos alinhados com segurança falhem. Disponibilizaremos o nosso OS-BLIND para incentivar a comunidade de investigação a investigar e resolver mais aprofundadamente estes desafios de segurança.

English

Computer-use agents (CUAs) can now autonomously complete complex tasks in real digital environments, but when misled, they can also be used to automate harmful actions programmatically. Existing safety evaluations largely target explicit threats such as misuse and prompt injection, but overlook a subtle yet critical setting where user instructions are entirely benign and harm arises from the task context or execution outcome. We introduce OS-BLIND, a benchmark that evaluates CUAs under unintended attack conditions, comprising 300 human-crafted tasks across 12 categories, 8 applications, and 2 threat clusters: environment-embedded threats and agent-initiated harms. Our evaluation on frontier models and agentic frameworks reveals that most CUAs exceed 90% attack success rate (ASR), and even the safety-aligned Claude 4.5 Sonnet reaches 73.0% ASR. More interestingly, this vulnerability becomes even more severe, with ASR rising from 73.0% to 92.7% when Claude 4.5 Sonnet is deployed in multi-agent systems. Our analysis further shows that existing safety defenses provide limited protection when user instructions are benign. Safety alignment primarily activates within the first few steps and rarely re-engages during subsequent execution. In multi-agent systems, decomposed subtasks obscure the harmful intent from the model, causing safety-aligned models to fail. We will release our OS-BLIND to encourage the broader research community to further investigate and address these safety challenges.

O Ponto Cego da Segurança de Agentes: Como Instruções Benignas do Usuário Exponenciam Vulnerabilidades Críticas em Agentes de Uso Computacional

The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents

Resumo

Support