SafeArena: Bewertung der Sicherheit autonomer Web-Agenten

papers.abstract

LLM-basierte Agenten werden zunehmend besser darin, webbasierte Aufgaben zu lösen. Mit dieser Fähigkeit steigt jedoch auch das Risiko des Missbrauchs für bösartige Zwecke, wie das Verbreiten von Fehlinformationen in einem Online-Forum oder den Verkauf illegaler Substanzen auf einer Website. Um diese Risiken zu bewerten, schlagen wir SafeArena vor, den ersten Benchmark, der sich auf die vorsätzliche Fehlanwendung von Web-Agenten konzentriert. SafeArena umfasst 250 sichere und 250 schädliche Aufgaben über vier Websites hinweg. Wir klassifizieren die schädlichen Aufgaben in fünf Schadenskategorien – Fehlinformationen, illegale Aktivitäten, Belästigung, Cyberkriminalität und soziale Voreingenommenheit –, die darauf abzielen, realistische Fehlanwendungen von Web-Agenten zu bewerten. Wir evaluieren führende LLM-basierte Web-Agenten, darunter GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B und Llama-3.2 90B, anhand unseres Benchmarks. Um ihre Anfälligkeit für schädliche Aufgaben systematisch zu bewerten, führen wir das Agent Risk Assessment Framework ein, das das Verhalten der Agenten in vier Risikostufen kategorisiert. Wir stellen fest, dass Agenten überraschend bereitwillig bösartige Anfragen erfüllen, wobei GPT-4o und Qwen-2 34,7 % bzw. 27,3 % der schädlichen Anfragen abschließen. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit von Sicherheitsanpassungsverfahren für Web-Agenten. Unser Benchmark ist hier verfügbar: https://safearena.github.io

English

LLM-based agents are becoming increasingly proficient at solving web-based tasks. With this capability comes a greater risk of misuse for malicious purposes, such as posting misinformation in an online forum or selling illicit substances on a website. To evaluate these risks, we propose SafeArena, the first benchmark to focus on the deliberate misuse of web agents. SafeArena comprises 250 safe and 250 harmful tasks across four websites. We classify the harmful tasks into five harm categories -- misinformation, illegal activity, harassment, cybercrime, and social bias, designed to assess realistic misuses of web agents. We evaluate leading LLM-based web agents, including GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B, and Llama-3.2 90B, on our benchmark. To systematically assess their susceptibility to harmful tasks, we introduce the Agent Risk Assessment framework that categorizes agent behavior across four risk levels. We find agents are surprisingly compliant with malicious requests, with GPT-4o and Qwen-2 completing 34.7% and 27.3% of harmful requests, respectively. Our findings highlight the urgent need for safety alignment procedures for web agents. Our benchmark is available here: https://safearena.github.io

SafeArena: Bewertung der Sicherheit autonomer Web-Agenten

SafeArena: Evaluating the Safety of Autonomous Web Agents

papers.abstract

Support