SafeArena: Evaluación de la Seguridad de Agentes Web Autónomos
SafeArena: Evaluating the Safety of Autonomous Web Agents
March 6, 2025
Autores: Ada Defne Tur, Nicholas Meade, Xing Han Lù, Alejandra Zambrano, Arkil Patel, Esin Durmus, Spandana Gella, Karolina Stańczak, Siva Reddy
cs.AI
Resumen
Los agentes basados en LLM (Modelos de Lenguaje de Gran Escala) están volviéndose cada vez más competentes para resolver tareas basadas en la web. Con esta capacidad surge un mayor riesgo de mal uso con fines maliciosos, como publicar información errónea en un foro en línea o vender sustancias ilícitas en un sitio web. Para evaluar estos riesgos, proponemos SafeArena, el primer punto de referencia que se enfoca en el uso deliberado de agentes web con fines perjudiciales. SafeArena consta de 250 tareas seguras y 250 tareas dañinas distribuidas en cuatro sitios web. Clasificamos las tareas dañinas en cinco categorías de daño: desinformación, actividad ilegal, acoso, ciberdelincuencia y sesgo social, diseñadas para evaluar usos indebidos realistas de agentes web. Evaluamos a los principales agentes web basados en LLM, incluyendo GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B y Llama-3.2 90B, en nuestro punto de referencia. Para evaluar sistemáticamente su susceptibilidad a tareas dañinas, introducimos el marco de Evaluación de Riesgos del Agente, que categoriza el comportamiento del agente en cuatro niveles de riesgo. Descubrimos que los agentes son sorprendentemente complacientes con solicitudes maliciosas, con GPT-4o y Qwen-2 completando el 34.7% y el 27.3% de las solicitudes dañinas, respectivamente. Nuestros hallazgos resaltan la necesidad urgente de procedimientos de alineación de seguridad para agentes web. Nuestro punto de referencia está disponible aquí: https://safearena.github.io.
English
LLM-based agents are becoming increasingly proficient at solving web-based
tasks. With this capability comes a greater risk of misuse for malicious
purposes, such as posting misinformation in an online forum or selling illicit
substances on a website. To evaluate these risks, we propose SafeArena, the
first benchmark to focus on the deliberate misuse of web agents. SafeArena
comprises 250 safe and 250 harmful tasks across four websites. We classify the
harmful tasks into five harm categories -- misinformation, illegal activity,
harassment, cybercrime, and social bias, designed to assess realistic misuses
of web agents. We evaluate leading LLM-based web agents, including GPT-4o,
Claude-3.5 Sonnet, Qwen-2-VL 72B, and Llama-3.2 90B, on our benchmark. To
systematically assess their susceptibility to harmful tasks, we introduce the
Agent Risk Assessment framework that categorizes agent behavior across four
risk levels. We find agents are surprisingly compliant with malicious requests,
with GPT-4o and Qwen-2 completing 34.7% and 27.3% of harmful requests,
respectively. Our findings highlight the urgent need for safety alignment
procedures for web agents. Our benchmark is available here:
https://safearena.github.ioSummary
AI-Generated Summary