ChatPaper.aiChatPaper

OS-Harm: Een Benchmark voor het Meten van de Veiligheid van Computergebruiksagenten

OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

June 17, 2025
Auteurs: Thomas Kuntz, Agatha Duzan, Hao Zhao, Francesco Croce, Zico Kolter, Nicolas Flammarion, Maksym Andriushchenko
cs.AI

Samenvatting

Computer use agents zijn op LLM gebaseerde agents die rechtstreeks kunnen interageren met een grafische gebruikersinterface, door het verwerken van schermafbeeldingen of toegankelijkheidsbomen. Hoewel deze systemen aan populariteit winnen, is hun veiligheid grotendeels over het hoofd gezien, ondanks het feit dat het evalueren en begrijpen van hun potentieel voor schadelijk gedrag essentieel is voor brede adoptie. Om dit gat te dichten, introduceren we OS-Harm, een nieuwe benchmark voor het meten van de veiligheid van computer use agents. OS-Harm is gebouwd bovenop de OSWorld-omgeving en heeft als doel modellen te testen op drie categorieën van schade: opzettelijk misbruik door gebruikers, prompt injection-aanvallen en modelmisgedrag. Om deze gevallen te dekken, creëren we 150 taken die verschillende soorten veiligheidsschendingen omvatten (pesten, auteursrechtinbreuk, desinformatie, data-exfiltratie, etc.) en vereisen dat de agent interageert met een verscheidenheid aan OS-applicaties (e-mailclient, code-editor, browser, etc.). Bovendien stellen we een geautomatiseerde rechter voor om zowel de nauwkeurigheid als de veiligheid van agents te evalueren, die een hoge overeenstemming bereikt met menselijke annotaties (0.76 en 0.79 F1-score). We evalueren computer use agents op basis van een reeks frontier modellen - zoals o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro - en bieden inzichten in hun veiligheid. In het bijzonder neigen alle modellen ertoe om direct te voldoen aan veel opzettelijke misbruikverzoeken, zijn relatief kwetsbaar voor statische prompt injections, en voeren af en toe onveilige acties uit. De OS-Harm benchmark is beschikbaar op https://github.com/tml-epfl/os-harm.
English
Computer use agents are LLM-based agents that can directly interact with a graphical user interface, by processing screenshots or accessibility trees. While these systems are gaining popularity, their safety has been largely overlooked, despite the fact that evaluating and understanding their potential for harmful behavior is essential for widespread adoption. To address this gap, we introduce OS-Harm, a new benchmark for measuring safety of computer use agents. OS-Harm is built on top of the OSWorld environment and aims to test models across three categories of harm: deliberate user misuse, prompt injection attacks, and model misbehavior. To cover these cases, we create 150 tasks that span several types of safety violations (harassment, copyright infringement, disinformation, data exfiltration, etc.) and require the agent to interact with a variety of OS applications (email client, code editor, browser, etc.). Moreover, we propose an automated judge to evaluate both accuracy and safety of agents that achieves high agreement with human annotations (0.76 and 0.79 F1 score). We evaluate computer use agents based on a range of frontier models - such as o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro - and provide insights into their safety. In particular, all models tend to directly comply with many deliberate misuse queries, are relatively vulnerable to static prompt injections, and occasionally perform unsafe actions. The OS-Harm benchmark is available at https://github.com/tml-epfl/os-harm.
PDF42June 19, 2025