OS-Harm: Ein Benchmark zur Messung der Sicherheit von Computer-Nutzungsagenten
OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents
June 17, 2025
Autoren: Thomas Kuntz, Agatha Duzan, Hao Zhao, Francesco Croce, Zico Kolter, Nicolas Flammarion, Maksym Andriushchenko
cs.AI
Zusammenfassung
Computer-Use-Agenten sind LLM-basierte Agenten, die direkt mit einer grafischen Benutzeroberfläche interagieren können, indem sie Screenshots oder Barrierefreiheitsbäume verarbeiten. Obwohl diese Systeme zunehmend an Popularität gewinnen, wurde ihre Sicherheit weitgehend vernachlässigt, obwohl die Bewertung und das Verständnis ihres Potenzials für schädliches Verhalten für eine breite Akzeptanz entscheidend ist. Um diese Lücke zu schließen, stellen wir OS-Harm vor, einen neuen Benchmark zur Messung der Sicherheit von Computer-Use-Agenten. OS-Harm basiert auf der OSWorld-Umgebung und zielt darauf ab, Modelle in drei Kategorien von Schäden zu testen: vorsätzlicher Missbrauch durch Benutzer, Prompt-Injection-Angriffe und Fehlverhalten des Modells. Um diese Fälle abzudecken, erstellen wir 150 Aufgaben, die verschiedene Arten von Sicherheitsverletzungen (Belästigung, Urheberrechtsverletzung, Desinformation, Datenexfiltration usw.) umfassen und den Agenten dazu auffordern, mit einer Vielzahl von Betriebssystemanwendungen (E-Mail-Client, Code-Editor, Browser usw.) zu interagieren. Darüber hinaus schlagen wir einen automatisierten Richter vor, der sowohl die Genauigkeit als auch die Sicherheit der Agenten bewertet und eine hohe Übereinstimmung mit menschlichen Annotationen erreicht (0,76 und 0,79 F1-Score). Wir bewerten Computer-Use-Agenten basierend auf einer Reihe von Frontier-Modellen – wie o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro – und geben Einblicke in deren Sicherheit. Insbesondere neigen alle Modelle dazu, vielen vorsätzlichen Missbrauchsanfragen direkt nachzukommen, sind relativ anfällig für statische Prompt-Injections und führen gelegentlich unsichere Aktionen aus. Der OS-Harm-Benchmark ist unter https://github.com/tml-epfl/os-harm verfügbar.
English
Computer use agents are LLM-based agents that can directly interact with a
graphical user interface, by processing screenshots or accessibility trees.
While these systems are gaining popularity, their safety has been largely
overlooked, despite the fact that evaluating and understanding their potential
for harmful behavior is essential for widespread adoption. To address this gap,
we introduce OS-Harm, a new benchmark for measuring safety of computer use
agents. OS-Harm is built on top of the OSWorld environment and aims to test
models across three categories of harm: deliberate user misuse, prompt
injection attacks, and model misbehavior. To cover these cases, we create 150
tasks that span several types of safety violations (harassment, copyright
infringement, disinformation, data exfiltration, etc.) and require the agent to
interact with a variety of OS applications (email client, code editor, browser,
etc.). Moreover, we propose an automated judge to evaluate both accuracy and
safety of agents that achieves high agreement with human annotations (0.76 and
0.79 F1 score). We evaluate computer use agents based on a range of frontier
models - such as o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro - and provide
insights into their safety. In particular, all models tend to directly comply
with many deliberate misuse queries, are relatively vulnerable to static prompt
injections, and occasionally perform unsafe actions. The OS-Harm benchmark is
available at https://github.com/tml-epfl/os-harm.