SafeArena: Bewertung der Sicherheit autonomer Web-Agenten
SafeArena: Evaluating the Safety of Autonomous Web Agents
March 6, 2025
Autoren: Ada Defne Tur, Nicholas Meade, Xing Han Lù, Alejandra Zambrano, Arkil Patel, Esin Durmus, Spandana Gella, Karolina Stańczak, Siva Reddy
cs.AI
Zusammenfassung
LLM-basierte Agenten werden zunehmend besser darin, webbasierte Aufgaben zu lösen. Mit dieser Fähigkeit steigt jedoch auch das Risiko des Missbrauchs für bösartige Zwecke, wie das Verbreiten von Fehlinformationen in einem Online-Forum oder den Verkauf illegaler Substanzen auf einer Website. Um diese Risiken zu bewerten, schlagen wir SafeArena vor, den ersten Benchmark, der sich auf die vorsätzliche Fehlanwendung von Web-Agenten konzentriert. SafeArena umfasst 250 sichere und 250 schädliche Aufgaben über vier Websites hinweg. Wir klassifizieren die schädlichen Aufgaben in fünf Schadenskategorien – Fehlinformationen, illegale Aktivitäten, Belästigung, Cyberkriminalität und soziale Voreingenommenheit –, die darauf abzielen, realistische Fehlanwendungen von Web-Agenten zu bewerten. Wir evaluieren führende LLM-basierte Web-Agenten, darunter GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B und Llama-3.2 90B, anhand unseres Benchmarks. Um ihre Anfälligkeit für schädliche Aufgaben systematisch zu bewerten, führen wir das Agent Risk Assessment Framework ein, das das Verhalten der Agenten in vier Risikostufen kategorisiert. Wir stellen fest, dass Agenten überraschend bereitwillig bösartige Anfragen erfüllen, wobei GPT-4o und Qwen-2 34,7 % bzw. 27,3 % der schädlichen Anfragen abschließen. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit von Sicherheitsanpassungsverfahren für Web-Agenten. Unser Benchmark ist hier verfügbar: https://safearena.github.io
English
LLM-based agents are becoming increasingly proficient at solving web-based
tasks. With this capability comes a greater risk of misuse for malicious
purposes, such as posting misinformation in an online forum or selling illicit
substances on a website. To evaluate these risks, we propose SafeArena, the
first benchmark to focus on the deliberate misuse of web agents. SafeArena
comprises 250 safe and 250 harmful tasks across four websites. We classify the
harmful tasks into five harm categories -- misinformation, illegal activity,
harassment, cybercrime, and social bias, designed to assess realistic misuses
of web agents. We evaluate leading LLM-based web agents, including GPT-4o,
Claude-3.5 Sonnet, Qwen-2-VL 72B, and Llama-3.2 90B, on our benchmark. To
systematically assess their susceptibility to harmful tasks, we introduce the
Agent Risk Assessment framework that categorizes agent behavior across four
risk levels. We find agents are surprisingly compliant with malicious requests,
with GPT-4o and Qwen-2 completing 34.7% and 27.3% of harmful requests,
respectively. Our findings highlight the urgent need for safety alignment
procedures for web agents. Our benchmark is available here:
https://safearena.github.ioSummary
AI-Generated Summary