Cybench: Um Framework para Avaliar as Capacidades de Cibersegurança e o Risco de Modelos de Linguagem
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models
August 15, 2024
Autores: Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang
cs.AI
Resumo
Agentes de Modelo de Linguagem (LM) para cibersegurança, capazes de identificar autonomamente vulnerabilidades e executar exploits, têm o potencial de causar impactos no mundo real. Decisores políticos, fornecedores de modelos e outros pesquisadores nas comunidades de IA e cibersegurança estão interessados em quantificar as capacidades desses agentes para ajudar a mitigar o ciberrisco e investigar oportunidades para testes de penetração. Com esse objetivo, apresentamos o Cybench, um framework para especificar tarefas de cibersegurança e avaliar agentes nessas tarefas. Incluímos 40 tarefas de Capture the Flag (CTF) de nível profissional de 4 competições CTF distintas, escolhidas por serem recentes, significativas e abrangerem uma ampla gama de dificuldades. Cada tarefa inclui sua própria descrição, arquivos iniciais e é inicializada em um ambiente onde um agente pode executar comandos bash e observar saídas. Como muitas tarefas estão além das capacidades dos agentes LM existentes, introduzimos subtarefas, que dividem uma tarefa em etapas intermediárias para uma avaliação mais graduada; adicionamos subtarefas para 17 das 40 tarefas. Para avaliar as capacidades do agente, construímos um agente de cibersegurança e avaliamos 7 modelos: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat e Llama 3.1 405B Instruct. Sem orientação, descobrimos que os agentes são capazes de resolver apenas as tarefas completas mais fáceis, que levaram equipes humanas até 11 minutos para resolver, com Claude 3.5 Sonnet e GPT-4o apresentando as maiores taxas de sucesso. Por fim, as subtarefas fornecem mais sinal para medir o desempenho em comparação com execuções não orientadas, com os modelos alcançando uma taxa de sucesso 3,2\% maior em tarefas completas com orientação de subtarefas do que sem orientação de subtarefas. Todo o código e dados estão disponíveis publicamente em https://cybench.github.io
English
Language Model (LM) agents for cybersecurity that are capable of autonomously
identifying vulnerabilities and executing exploits have the potential to cause
real-world impact. Policymakers, model providers, and other researchers in the
AI and cybersecurity communities are interested in quantifying the capabilities
of such agents to help mitigate cyberrisk and investigate opportunities for
penetration testing. Toward that end, we introduce Cybench, a framework for
specifying cybersecurity tasks and evaluating agents on those tasks. We include
40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF
competitions, chosen to be recent, meaningful, and spanning a wide range of
difficulties. Each task includes its own description, starter files, and is
initialized in an environment where an agent can execute bash commands and
observe outputs. Since many tasks are beyond the capabilities of existing LM
agents, we introduce subtasks, which break down a task into intermediary steps
for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To
evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7
models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct,
Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without
guidance, we find that agents are able to solve only the easiest complete tasks
that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and
GPT-4o having the highest success rates. Finally, subtasks provide more signal
for measuring performance compared to unguided runs, with models achieving a
3.2\% higher success rate on complete tasks with subtask-guidance than without
subtask-guidance. All code and data are publicly available at
https://cybench.github.ioSummary
AI-Generated Summary