AgentHazard: Ein Benchmark zur Bewertung schädlichen Verhaltens bei Computernutzungs-Agenten

Zusammenfassung

Computer-Use-Agents erweitern Sprachmodelle von der Texterzeugung zu persistenter Aktion über Werkzeuge, Dateien und Ausführungsumgebungen. Im Gegensatz zu Chat-Systemen bewahren sie Zustände über Interaktionen hinweg und übersetzen Zwischenausgaben in konkrete Aktionen. Dies birgt eine besondere Sicherheitsherausforderung, da sich schädliches Verhalten durch Sequenzen einzelner, für sich genommen plausibler Schritte entwickeln kann, einschließlich Zwischenaktionen, die lokal akzeptabel erscheinen, aber gemeinsam zu nicht autorisierten Aktionen führen. Wir stellen AgentHazard vor, einen Benchmark zur Bewertung schädlichen Verhaltens in Computer-Use-Agents. AgentHazard umfasst 2.653 Instanzen, die verschiedene Risikokategorien und Angriffsstrategien abdecken. Jede Instanz verknüpft ein schädliches Ziel mit einer Abfolge operationeller Schritte, die lokal legitim sind, aber gemeinsam unsicheres Verhalten hervorrufen. Der Benchmark bewertet, ob Agents Schäden erkennen und unterbrechen können, die sich aus akkumuliertem Kontext, wiederholter Werkzeugnutzung, Zwischenaktionen und Abhängigkeiten zwischen Schritten ergeben. Wir evaluieren AgentHazard an Claude Code, OpenClaw und IFlow, überwiegend mit offenen oder offen einsetzbaren Modellen der Familien Qwen3, Kimi, GLM und DeepSeek. Unsere experimentellen Ergebnisse zeigen, dass aktuelle Systeme nach wie vor hochgradig anfällig sind. Insbesondere weist Claude Code, angetrieben von Qwen3-Coder, eine Angriffserfolgsrate von 73,63 % auf, was nahelegt, dass Alignment von Modellen allein nicht zuverlässig die Sicherheit autonomer Agents gewährleistet.

English

Computer-use agents extend language models from text generation to persistent action over tools, files, and execution environments. Unlike chat systems, they maintain state across interactions and translate intermediate outputs into concrete actions. This creates a distinct safety challenge in that harmful behavior may emerge through sequences of individually plausible steps, including intermediate actions that appear locally acceptable but collectively lead to unauthorized actions. We present AgentHazard, a benchmark for evaluating harmful behavior in computer-use agents. AgentHazard contains 2,653 instances spanning diverse risk categories and attack strategies. Each instance pairs a harmful objective with a sequence of operational steps that are locally legitimate but jointly induce unsafe behavior. The benchmark evaluates whether agents can recognize and interrupt harm arising from accumulated context, repeated tool use, intermediate actions, and dependencies across steps. We evaluate AgentHazard on Claude Code, OpenClaw, and IFlow using mostly open or openly deployable models from the Qwen3, Kimi, GLM, and DeepSeek families. Our experimental results indicate that current systems remain highly vulnerable. In particular, when powered by Qwen3-Coder, Claude Code exhibits an attack success rate of 73.63\%, suggesting that model alignment alone does not reliably guarantee the safety of autonomous agents.

AgentHazard: Ein Benchmark zur Bewertung schädlichen Verhaltens bei Computernutzungs-Agenten

AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

Zusammenfassung

Support