AgentHazard: un benchmark per la valutazione di comportamenti dannosi negli agenti di utilizzo informatico

Abstract

Gli agenti di utilizzo informatico estendono i modelli linguistici dalla generazione di testo ad azioni persistenti su strumenti, file e ambienti di esecuzione. A differenza dei sistemi di chat, mantengono uno stato attraverso le interazioni e traducono output intermedi in azioni concrete. Ciò crea una sfida di sicurezza distinta, poiché comportamenti dannosi possono emergere attraverso sequenze di passaggi individualmente plausibili, incluse azioni intermedie che appaiono localmente accettabili ma collettivamente conducono ad azioni non autorizzate. Presentiamo AgentHazard, un benchmark per valutare il comportamento dannoso negli agenti di utilizzo informatico. AgentHazard contiene 2.653 istanze che coprono diverse categorie di rischio e strategie di attacco. Ogni istanza accoppia un obiettivo dannoso con una sequenza di passaggi operativi localmente legittimi ma che congiuntamente inducono comportamenti non sicuri. Il benchmark valuta se gli agenti possono riconoscere e interrompere danni derivanti da contesto accumulato, uso ripetuto di strumenti, azioni intermedie e dipendenze tra i passaggi. Valutiamo AgentHazard su Claude Code, OpenClaw e IFlow utilizzando principalmente modelli open o distribuibili liberamente delle famiglie Qwen3, Kimi, GLM e DeepSeek. I nostri risultati sperimentali indicano che i sistemi attuali rimangono altamente vulnerabili. In particolare, quando alimentato da Qwen3-Coder, Claude Code mostra un tasso di successo degli attacchi del 73,63%, suggerendo che l'allineamento del modello da solo non garantisce in modo affidabile la sicurezza degli agenti autonomi.

English

Computer-use agents extend language models from text generation to persistent action over tools, files, and execution environments. Unlike chat systems, they maintain state across interactions and translate intermediate outputs into concrete actions. This creates a distinct safety challenge in that harmful behavior may emerge through sequences of individually plausible steps, including intermediate actions that appear locally acceptable but collectively lead to unauthorized actions. We present AgentHazard, a benchmark for evaluating harmful behavior in computer-use agents. AgentHazard contains 2,653 instances spanning diverse risk categories and attack strategies. Each instance pairs a harmful objective with a sequence of operational steps that are locally legitimate but jointly induce unsafe behavior. The benchmark evaluates whether agents can recognize and interrupt harm arising from accumulated context, repeated tool use, intermediate actions, and dependencies across steps. We evaluate AgentHazard on Claude Code, OpenClaw, and IFlow using mostly open or openly deployable models from the Qwen3, Kimi, GLM, and DeepSeek families. Our experimental results indicate that current systems remain highly vulnerable. In particular, when powered by Qwen3-Coder, Claude Code exhibits an attack success rate of 73.63\%, suggesting that model alignment alone does not reliably guarantee the safety of autonomous agents.

AgentHazard: un benchmark per la valutazione di comportamenti dannosi negli agenti di utilizzo informatico

AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

Abstract

Support