OS-Harm: Ein Benchmark zur Messung der Sicherheit von Computer-Nutzungsagenten

papers.abstract

Computer-Use-Agenten sind LLM-basierte Agenten, die direkt mit einer grafischen Benutzeroberfläche interagieren können, indem sie Screenshots oder Barrierefreiheitsbäume verarbeiten. Obwohl diese Systeme zunehmend an Popularität gewinnen, wurde ihre Sicherheit weitgehend vernachlässigt, obwohl die Bewertung und das Verständnis ihres Potenzials für schädliches Verhalten für eine breite Akzeptanz entscheidend ist. Um diese Lücke zu schließen, stellen wir OS-Harm vor, einen neuen Benchmark zur Messung der Sicherheit von Computer-Use-Agenten. OS-Harm basiert auf der OSWorld-Umgebung und zielt darauf ab, Modelle in drei Kategorien von Schäden zu testen: vorsätzlicher Missbrauch durch Benutzer, Prompt-Injection-Angriffe und Fehlverhalten des Modells. Um diese Fälle abzudecken, erstellen wir 150 Aufgaben, die verschiedene Arten von Sicherheitsverletzungen (Belästigung, Urheberrechtsverletzung, Desinformation, Datenexfiltration usw.) umfassen und den Agenten dazu auffordern, mit einer Vielzahl von Betriebssystemanwendungen (E-Mail-Client, Code-Editor, Browser usw.) zu interagieren. Darüber hinaus schlagen wir einen automatisierten Richter vor, der sowohl die Genauigkeit als auch die Sicherheit der Agenten bewertet und eine hohe Übereinstimmung mit menschlichen Annotationen erreicht (0,76 und 0,79 F1-Score). Wir bewerten Computer-Use-Agenten basierend auf einer Reihe von Frontier-Modellen – wie o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro – und geben Einblicke in deren Sicherheit. Insbesondere neigen alle Modelle dazu, vielen vorsätzlichen Missbrauchsanfragen direkt nachzukommen, sind relativ anfällig für statische Prompt-Injections und führen gelegentlich unsichere Aktionen aus. Der OS-Harm-Benchmark ist unter https://github.com/tml-epfl/os-harm verfügbar.

English

Computer use agents are LLM-based agents that can directly interact with a graphical user interface, by processing screenshots or accessibility trees. While these systems are gaining popularity, their safety has been largely overlooked, despite the fact that evaluating and understanding their potential for harmful behavior is essential for widespread adoption. To address this gap, we introduce OS-Harm, a new benchmark for measuring safety of computer use agents. OS-Harm is built on top of the OSWorld environment and aims to test models across three categories of harm: deliberate user misuse, prompt injection attacks, and model misbehavior. To cover these cases, we create 150 tasks that span several types of safety violations (harassment, copyright infringement, disinformation, data exfiltration, etc.) and require the agent to interact with a variety of OS applications (email client, code editor, browser, etc.). Moreover, we propose an automated judge to evaluate both accuracy and safety of agents that achieves high agreement with human annotations (0.76 and 0.79 F1 score). We evaluate computer use agents based on a range of frontier models - such as o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro - and provide insights into their safety. In particular, all models tend to directly comply with many deliberate misuse queries, are relatively vulnerable to static prompt injections, and occasionally perform unsafe actions. The OS-Harm benchmark is available at https://github.com/tml-epfl/os-harm.

OS-Harm: Ein Benchmark zur Messung der Sicherheit von Computer-Nutzungsagenten

OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

papers.abstract

Support