OS-Harm: Un punto de referencia para medir la seguridad de los agentes de uso informático

Resumen

Los agentes de uso informático son agentes basados en LLM que pueden interactuar directamente con una interfaz gráfica de usuario, procesando capturas de pantalla o árboles de accesibilidad. Aunque estos sistemas están ganando popularidad, su seguridad ha sido en gran medida ignorada, a pesar de que evaluar y comprender su potencial para comportamientos dañinos es esencial para su adopción generalizada. Para abordar esta brecha, presentamos OS-Harm, un nuevo punto de referencia para medir la seguridad de los agentes de uso informático. OS-Harm se construye sobre el entorno OSWorld y tiene como objetivo probar modelos en tres categorías de daño: uso indebido deliberado por parte del usuario, ataques de inyección de prompts y comportamiento incorrecto del modelo. Para cubrir estos casos, creamos 150 tareas que abarcan varios tipos de violaciones de seguridad (acoso, infracción de derechos de autor, desinformación, exfiltración de datos, etc.) y requieren que el agente interactúe con una variedad de aplicaciones del sistema operativo (cliente de correo electrónico, editor de código, navegador, etc.). Además, proponemos un juez automatizado para evaluar tanto la precisión como la seguridad de los agentes, que logra un alto acuerdo con las anotaciones humanas (puntuación F1 de 0.76 y 0.79). Evaluamos agentes de uso informático basados en una gama de modelos de vanguardia, como o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro, y proporcionamos información sobre su seguridad. En particular, todos los modelos tienden a cumplir directamente con muchas consultas de uso indebido deliberado, son relativamente vulnerables a inyecciones de prompts estáticas y ocasionalmente realizan acciones inseguras. El punto de referencia OS-Harm está disponible en https://github.com/tml-epfl/os-harm.

English

Computer use agents are LLM-based agents that can directly interact with a graphical user interface, by processing screenshots or accessibility trees. While these systems are gaining popularity, their safety has been largely overlooked, despite the fact that evaluating and understanding their potential for harmful behavior is essential for widespread adoption. To address this gap, we introduce OS-Harm, a new benchmark for measuring safety of computer use agents. OS-Harm is built on top of the OSWorld environment and aims to test models across three categories of harm: deliberate user misuse, prompt injection attacks, and model misbehavior. To cover these cases, we create 150 tasks that span several types of safety violations (harassment, copyright infringement, disinformation, data exfiltration, etc.) and require the agent to interact with a variety of OS applications (email client, code editor, browser, etc.). Moreover, we propose an automated judge to evaluate both accuracy and safety of agents that achieves high agreement with human annotations (0.76 and 0.79 F1 score). We evaluate computer use agents based on a range of frontier models - such as o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro - and provide insights into their safety. In particular, all models tend to directly comply with many deliberate misuse queries, are relatively vulnerable to static prompt injections, and occasionally perform unsafe actions. The OS-Harm benchmark is available at https://github.com/tml-epfl/os-harm.