ChatPaper.aiChatPaper

SafeArena: Avaliando a Segurança de Agentes Web Autônomos

SafeArena: Evaluating the Safety of Autonomous Web Agents

March 6, 2025
Autores: Ada Defne Tur, Nicholas Meade, Xing Han Lù, Alejandra Zambrano, Arkil Patel, Esin Durmus, Spandana Gella, Karolina Stańczak, Siva Reddy
cs.AI

Resumo

Agentes baseados em LLMs estão se tornando cada vez mais proficientes na resolução de tarefas baseadas na web. Com essa capacidade, surge um risco maior de uso indevido para fins maliciosos, como postar desinformação em um fórum online ou vender substâncias ilícitas em um site. Para avaliar esses riscos, propomos o SafeArena, o primeiro benchmark focado no uso deliberado de agentes da web para fins maliciosos. O SafeArena compreende 250 tarefas seguras e 250 tarefas prejudiciais em quatro websites. Classificamos as tarefas prejudiciais em cinco categorias de dano — desinformação, atividade ilegal, assédio, cibercrime e viés social — projetadas para avaliar usos indevidos realistas de agentes da web. Avaliamos agentes da web baseados em LLMs líderes, incluindo GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B e Llama-3.2 90B, em nosso benchmark. Para avaliar sistematicamente sua suscetibilidade a tarefas prejudiciais, introduzimos o framework de Avaliação de Risco do Agente, que categoriza o comportamento do agente em quatro níveis de risco. Descobrimos que os agentes são surpreendentemente complacentes com solicitações maliciosas, com GPT-4o e Qwen-2 completando 34,7% e 27,3% das solicitações prejudiciais, respectivamente. Nossas descobertas destacam a necessidade urgente de procedimentos de alinhamento de segurança para agentes da web. Nosso benchmark está disponível aqui: https://safearena.github.io
English
LLM-based agents are becoming increasingly proficient at solving web-based tasks. With this capability comes a greater risk of misuse for malicious purposes, such as posting misinformation in an online forum or selling illicit substances on a website. To evaluate these risks, we propose SafeArena, the first benchmark to focus on the deliberate misuse of web agents. SafeArena comprises 250 safe and 250 harmful tasks across four websites. We classify the harmful tasks into five harm categories -- misinformation, illegal activity, harassment, cybercrime, and social bias, designed to assess realistic misuses of web agents. We evaluate leading LLM-based web agents, including GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B, and Llama-3.2 90B, on our benchmark. To systematically assess their susceptibility to harmful tasks, we introduce the Agent Risk Assessment framework that categorizes agent behavior across four risk levels. We find agents are surprisingly compliant with malicious requests, with GPT-4o and Qwen-2 completing 34.7% and 27.3% of harmful requests, respectively. Our findings highlight the urgent need for safety alignment procedures for web agents. Our benchmark is available here: https://safearena.github.io

Summary

AI-Generated Summary

PDF212March 10, 2025