AgentHazard: Un Punto de Referencia para Evaluar Comportamientos Nocivos en Agentes de Uso Informático

Resumen

Los agentes de uso informático amplían los modelos de lenguaje desde la generación de texto hacia acciones persistentes sobre herramientas, archivos y entornos de ejecución. A diferencia de los sistemas de chat, mantienen estado entre interacciones y traducen resultados intermedios en acciones concretas. Esto crea un desafío de seguridad distintivo, ya que pueden surgir comportamientos nocivos mediante secuencias de pasos individualmente plausibles, incluyendo acciones intermedias que parecen localmente aceptables pero que colectivamente conducen a acciones no autorizadas. Presentamos AgentHazard, un benchmark para evaluar comportamientos nocivos en agentes de uso informático. AgentHazard contiene 2.653 instancias que abarcan diversas categorías de riesgo y estrategias de ataque. Cada instancia empareja un objetivo nocivo con una secuencia de pasos operativos localmente legítimos que, en conjunto, inducen comportamientos inseguros. El benchmark evalúa si los agentes pueden reconocer e interrumpir daños derivados de contexto acumulado, uso repetido de herramientas, acciones intermedias y dependencias entre pasos. Evaluamos AgentHazard en Claude Code, OpenClaw e IFlow utilizando principalmente modelos abiertos o desplegables abiertamente de las familias Qwen3, Kimi, GLM y DeepSeek. Nuestros resultados experimentales indican que los sistemas actuales siguen siendo altamente vulnerables. En particular, cuando utiliza Qwen3-Coder, Claude Code exhibe una tasa de éxito de ataque del 73.63%, lo que sugiere que la alineación del modelo por sí sola no garantiza de manera confiable la seguridad de los agentes autónomos.

English

Computer-use agents extend language models from text generation to persistent action over tools, files, and execution environments. Unlike chat systems, they maintain state across interactions and translate intermediate outputs into concrete actions. This creates a distinct safety challenge in that harmful behavior may emerge through sequences of individually plausible steps, including intermediate actions that appear locally acceptable but collectively lead to unauthorized actions. We present AgentHazard, a benchmark for evaluating harmful behavior in computer-use agents. AgentHazard contains 2,653 instances spanning diverse risk categories and attack strategies. Each instance pairs a harmful objective with a sequence of operational steps that are locally legitimate but jointly induce unsafe behavior. The benchmark evaluates whether agents can recognize and interrupt harm arising from accumulated context, repeated tool use, intermediate actions, and dependencies across steps. We evaluate AgentHazard on Claude Code, OpenClaw, and IFlow using mostly open or openly deployable models from the Qwen3, Kimi, GLM, and DeepSeek families. Our experimental results indicate that current systems remain highly vulnerable. In particular, when powered by Qwen3-Coder, Claude Code exhibits an attack success rate of 73.63\%, suggesting that model alignment alone does not reliably guarantee the safety of autonomous agents.

AgentHazard: Un Punto de Referencia para Evaluar Comportamientos Nocivos en Agentes de Uso Informático

AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

Resumen

Support