SafeArena: Het evalueren van de veiligheid van autonome webagents
SafeArena: Evaluating the Safety of Autonomous Web Agents
March 6, 2025
Auteurs: Ada Defne Tur, Nicholas Meade, Xing Han Lù, Alejandra Zambrano, Arkil Patel, Esin Durmus, Spandana Gella, Karolina Stańczak, Siva Reddy
cs.AI
Samenvatting
LLM-gebaseerde agents worden steeds vaardiger in het oplossen van webgebaseerde taken. Met deze capaciteit neemt ook het risico op misbruik voor kwaadaardige doeleinden toe, zoals het plaatsen van misinformatie in een online forum of het verkopen van illegale stoffen op een website. Om deze risico's te evalueren, stellen we SafeArena voor, de eerste benchmark die zich richt op het opzettelijke misbruik van webagents. SafeArena bestaat uit 250 veilige en 250 schadelijke taken verspreid over vier websites. We classificeren de schadelijke taken in vijf categorieën van schade — misinformatie, illegale activiteiten, intimidatie, cybercriminaliteit en sociale vooroordelen — ontworpen om realistisch misbruik van webagents te beoordelen. We evalueren toonaangevende LLM-gebaseerde webagents, waaronder GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B en Llama-3.2 90B, op onze benchmark. Om hun gevoeligheid voor schadelijke taken systematisch te beoordelen, introduceren we het Agent Risk Assessment-raamwerk dat het gedrag van agents categoriseert in vier risiconiveaus. We ontdekken dat agents verrassend meegaand zijn met kwaadaardige verzoeken, waarbij GPT-4o en Qwen-2 respectievelijk 34,7% en 27,3% van de schadelijke verzoeken voltooien. Onze bevindingen onderstrepen de dringende noodzaak van veiligheidsafstemmingsprocedures voor webagents. Onze benchmark is hier beschikbaar: https://safearena.github.io
English
LLM-based agents are becoming increasingly proficient at solving web-based
tasks. With this capability comes a greater risk of misuse for malicious
purposes, such as posting misinformation in an online forum or selling illicit
substances on a website. To evaluate these risks, we propose SafeArena, the
first benchmark to focus on the deliberate misuse of web agents. SafeArena
comprises 250 safe and 250 harmful tasks across four websites. We classify the
harmful tasks into five harm categories -- misinformation, illegal activity,
harassment, cybercrime, and social bias, designed to assess realistic misuses
of web agents. We evaluate leading LLM-based web agents, including GPT-4o,
Claude-3.5 Sonnet, Qwen-2-VL 72B, and Llama-3.2 90B, on our benchmark. To
systematically assess their susceptibility to harmful tasks, we introduce the
Agent Risk Assessment framework that categorizes agent behavior across four
risk levels. We find agents are surprisingly compliant with malicious requests,
with GPT-4o and Qwen-2 completing 34.7% and 27.3% of harmful requests,
respectively. Our findings highlight the urgent need for safety alignment
procedures for web agents. Our benchmark is available here:
https://safearena.github.ioSummary
AI-Generated Summary