AgentHazard: Um Benchmark para Avaliar Comportamentos Nocivos em Agentes de Uso Computacional

Resumo

Os agentes de uso computacional estendem os modelos de linguagem da geração de texto para ações persistentes sobre ferramentas, arquivos e ambientes de execução. Diferente dos sistemas de chat, eles mantêm estado entre interações e traduzem saídas intermediárias em ações concretas. Isso cria um desafio de segurança distinto, pois comportamentos nocivos podem emergir através de sequências de etapas individualmente plausíveis, incluindo ações intermediárias que parecem localmente aceitáveis mas que coletivamente levam a ações não autorizadas. Apresentamos o AgentHazard, um benchmark para avaliar comportamentos nocivos em agentes de uso computacional. O AgentHazard contém 2.653 instâncias abrangendo diversas categorias de risco e estratégias de ataque. Cada instância emparelha um objetivo nocivo com uma sequência de etapas operacionais que são localmente legítimas mas que conjuntamente induzem comportamentos inseguros. O benchmark avalia se os agentes conseguem reconhecer e interromper danos decorrentes de contexto acumulado, uso repetido de ferramentas, ações intermediárias e dependências entre etapas. Avaliamos o AgentHazard no Claude Code, OpenClaw e IFlow usando principalmente modelos abertos ou abertamente implantáveis das famílias Qwen3, Kimi, GLM e DeepSeek. Nossos resultados experimentais indicam que os sistemas atuais permanecem altamente vulneráveis. Em particular, quando alimentado pelo Qwen3-Coder, o Claude Code exibe uma taxa de sucesso de ataque de 73,63%, sugerindo que o alinhamento do modelo sozinho não garante de forma confiável a segurança de agentes autónomos.

English

Computer-use agents extend language models from text generation to persistent action over tools, files, and execution environments. Unlike chat systems, they maintain state across interactions and translate intermediate outputs into concrete actions. This creates a distinct safety challenge in that harmful behavior may emerge through sequences of individually plausible steps, including intermediate actions that appear locally acceptable but collectively lead to unauthorized actions. We present AgentHazard, a benchmark for evaluating harmful behavior in computer-use agents. AgentHazard contains 2,653 instances spanning diverse risk categories and attack strategies. Each instance pairs a harmful objective with a sequence of operational steps that are locally legitimate but jointly induce unsafe behavior. The benchmark evaluates whether agents can recognize and interrupt harm arising from accumulated context, repeated tool use, intermediate actions, and dependencies across steps. We evaluate AgentHazard on Claude Code, OpenClaw, and IFlow using mostly open or openly deployable models from the Qwen3, Kimi, GLM, and DeepSeek families. Our experimental results indicate that current systems remain highly vulnerable. In particular, when powered by Qwen3-Coder, Claude Code exhibits an attack success rate of 73.63\%, suggesting that model alignment alone does not reliably guarantee the safety of autonomous agents.

AgentHazard: Um Benchmark para Avaliar Comportamentos Nocivos em Agentes de Uso Computacional

AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

Resumo

Support