Der blinde Fleck der Agentensicherheit: Wie harmlose Benutzeranweisungen kritische Schwachstellen in Computernutzungs-Agenten aufdecken

Zusammenfassung

Computernutzungsagenten (CUAs) können heute komplexe Aufgaben in realen digitalen Umgebungen autonom ausführen. Werden sie jedoch fehlgeleitet, können sie auch zur programmatischen Automatisierung schädlicher Aktionen genutzt werden. Bestehende Sicherheitsevaluierungen zielen größtenteils auf explizite Bedrohungen wie Missbrauch und Prompt-Injection ab, übersehen jedoch eine subtile aber kritische Konstellation: Nutzeranweisungen sind vollkommen harmlos, doch der Schaden entsteht aus dem Aufgabenkontext oder dem Ausführungsergebnis. Wir stellen OS-BLIND vor, einen Benchmark, der CUAs unter unbeabsichtigten Angriffsbedingungen evaluiert. Er umfasst 300 von Menschen erstellte Aufgaben aus 12 Kategorien, 8 Anwendungen und 2 Bedrohungsclustern: umgebungsgebundene Bedrohungen und agenteninitiierte Schäden. Unsere Evaluation von Frontier-Modellen und agentenbasierten Frameworks zeigt, dass die meisten CUAs eine Angriffserfolgsrate (ASR) von über 90% aufweisen, und selbst das sicherheitsalignierte Claude 4.5 Sonnet erreicht 73,0% ASR. Noch interessanter ist, dass diese Anfälligkeit in Multi-Agenten-Systemen sogar gravierender wird – die ASR von Claude 4.5 Sonnet steigt dort von 73,0% auf 92,7%. Unsere Analyse zeigt weiterhin, dass bestehende Sicherheitsmaßnahmen nur begrenzten Schutz bieten, wenn die Nutzeranweisungen harmlos sind. Safety-Alignment wird primär in den ersten Schritten aktiviert und greift selten während der nachfolgenden Ausführung erneut ein. In Multi-Agenten-Systemen verschleiern zerlegte Teilaufgaben die schädliche Absicht vor dem Modell, was dazu führt, dass sicherheitsalignierte Modelle versagen. Wir werden OS-BLIND veröffentlichen, um die Forschungsgemeinschaft zu ermutigen, diese Sicherheitsherausforderungen weiter zu untersuchen und zu adressieren.

English

Computer-use agents (CUAs) can now autonomously complete complex tasks in real digital environments, but when misled, they can also be used to automate harmful actions programmatically. Existing safety evaluations largely target explicit threats such as misuse and prompt injection, but overlook a subtle yet critical setting where user instructions are entirely benign and harm arises from the task context or execution outcome. We introduce OS-BLIND, a benchmark that evaluates CUAs under unintended attack conditions, comprising 300 human-crafted tasks across 12 categories, 8 applications, and 2 threat clusters: environment-embedded threats and agent-initiated harms. Our evaluation on frontier models and agentic frameworks reveals that most CUAs exceed 90% attack success rate (ASR), and even the safety-aligned Claude 4.5 Sonnet reaches 73.0% ASR. More interestingly, this vulnerability becomes even more severe, with ASR rising from 73.0% to 92.7% when Claude 4.5 Sonnet is deployed in multi-agent systems. Our analysis further shows that existing safety defenses provide limited protection when user instructions are benign. Safety alignment primarily activates within the first few steps and rarely re-engages during subsequent execution. In multi-agent systems, decomposed subtasks obscure the harmful intent from the model, causing safety-aligned models to fail. We will release our OS-BLIND to encourage the broader research community to further investigate and address these safety challenges.

Der blinde Fleck der Agentensicherheit: Wie harmlose Benutzeranweisungen kritische Schwachstellen in Computernutzungs-Agenten aufdecken

The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents

Zusammenfassung

Support