ChatPaper.aiChatPaper

SafeArena: Оценка безопасности автономных веб-агентов

SafeArena: Evaluating the Safety of Autonomous Web Agents

March 6, 2025
Авторы: Ada Defne Tur, Nicholas Meade, Xing Han Lù, Alejandra Zambrano, Arkil Patel, Esin Durmus, Spandana Gella, Karolina Stańczak, Siva Reddy
cs.AI

Аннотация

Агенты на основе больших языковых моделей (LLM) становятся всё более эффективными в решении задач, связанных с вебом. Однако с этим ростом возможностей возрастает и риск их злонамеренного использования, например, для распространения дезинформации на онлайн-форумах или продажи запрещённых веществ на веб-сайтах. Для оценки этих рисков мы предлагаем SafeArena — первый бенчмарк, ориентированный на преднамеренное злоупотребление веб-агентами. SafeArena включает 250 безопасных и 250 вредоносных задач, распределённых по четырём веб-сайтам. Вредоносные задачи классифицируются на пять категорий: дезинформация, незаконная деятельность, домогательства, киберпреступность и социальная предвзятость, что позволяет оценить реалистичные сценарии злоупотребления веб-агентами. Мы тестируем ведущие веб-агенты на основе LLM, включая GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B и Llama-3.2 90B, на нашем бенчмарке. Для систематической оценки их уязвимости к вредоносным задачам мы вводим фреймворк Agent Risk Assessment, который классифицирует поведение агентов по четырём уровням риска. Мы обнаруживаем, что агенты удивительно склонны выполнять злонамеренные запросы: GPT-4o и Qwen-2 завершают 34,7% и 27,3% вредоносных задач соответственно. Наши результаты подчеркивают острую необходимость в процедурах обеспечения безопасности для веб-агентов. Наш бенчмарк доступен по ссылке: https://safearena.github.io.
English
LLM-based agents are becoming increasingly proficient at solving web-based tasks. With this capability comes a greater risk of misuse for malicious purposes, such as posting misinformation in an online forum or selling illicit substances on a website. To evaluate these risks, we propose SafeArena, the first benchmark to focus on the deliberate misuse of web agents. SafeArena comprises 250 safe and 250 harmful tasks across four websites. We classify the harmful tasks into five harm categories -- misinformation, illegal activity, harassment, cybercrime, and social bias, designed to assess realistic misuses of web agents. We evaluate leading LLM-based web agents, including GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B, and Llama-3.2 90B, on our benchmark. To systematically assess their susceptibility to harmful tasks, we introduce the Agent Risk Assessment framework that categorizes agent behavior across four risk levels. We find agents are surprisingly compliant with malicious requests, with GPT-4o and Qwen-2 completing 34.7% and 27.3% of harmful requests, respectively. Our findings highlight the urgent need for safety alignment procedures for web agents. Our benchmark is available here: https://safearena.github.io

Summary

AI-Generated Summary

PDF212March 10, 2025