Cybench: Un Framework per Valutare le Capacità di Cybersecurity e il Rischio dei Modelli Linguistici
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models
August 15, 2024
Autori: Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang
cs.AI
Abstract
Gli agenti basati su modelli linguistici (LM) per la cybersecurity, in grado di identificare autonomamente vulnerabilità ed eseguire exploit, hanno il potenziale di causare un impatto significativo nel mondo reale. I responsabili delle politiche, i fornitori di modelli e altri ricercatori nelle comunità di intelligenza artificiale e cybersecurity sono interessati a quantificare le capacità di tali agenti per contribuire a mitigare il rischio informatico e investigare opportunità per i test di penetrazione. A tal fine, introduciamo Cybench, un framework per specificare compiti di cybersecurity e valutare gli agenti su tali compiti. Includiamo 40 attività professionali di tipo Capture the Flag (CTF) provenienti da 4 diverse competizioni CTF, selezionate per essere recenti, significative e coprire un'ampia gamma di difficoltà. Ogni attività include la propria descrizione, file di partenza ed è inizializzata in un ambiente in cui un agente può eseguire comandi bash e osservare gli output. Poiché molte attività vanno oltre le capacità degli attuali agenti LM, introduciamo sottocompiti, che suddividono un'attività in passaggi intermedi per una valutazione più graduale; aggiungiamo sottocompiti per 17 delle 40 attività. Per valutare le capacità degli agenti, costruiamo un agente di cybersecurity e valutiamo 7 modelli: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat e Llama 3.1 405B Instruct. Senza guida, osserviamo che gli agenti sono in grado di risolvere solo le attività complete più semplici, che hanno richiesto ai team umani fino a 11 minuti per essere risolte, con Claude 3.5 Sonnet e GPT-4o che mostrano i tassi di successo più elevati. Infine, i sottocompiti forniscono un segnale più chiaro per misurare le prestazioni rispetto alle esecuzioni senza guida, con i modelli che raggiungono un tasso di successo del 3,2% più alto sulle attività complete con guida rispetto a quelle senza guida. Tutti i codici e i dati sono disponibili pubblicamente all'indirizzo https://cybench.github.io.
English
Language Model (LM) agents for cybersecurity that are capable of autonomously
identifying vulnerabilities and executing exploits have the potential to cause
real-world impact. Policymakers, model providers, and other researchers in the
AI and cybersecurity communities are interested in quantifying the capabilities
of such agents to help mitigate cyberrisk and investigate opportunities for
penetration testing. Toward that end, we introduce Cybench, a framework for
specifying cybersecurity tasks and evaluating agents on those tasks. We include
40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF
competitions, chosen to be recent, meaningful, and spanning a wide range of
difficulties. Each task includes its own description, starter files, and is
initialized in an environment where an agent can execute bash commands and
observe outputs. Since many tasks are beyond the capabilities of existing LM
agents, we introduce subtasks, which break down a task into intermediary steps
for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To
evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7
models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct,
Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without
guidance, we find that agents are able to solve only the easiest complete tasks
that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and
GPT-4o having the highest success rates. Finally, subtasks provide more signal
for measuring performance compared to unguided runs, with models achieving a
3.2\% higher success rate on complete tasks with subtask-guidance than without
subtask-guidance. All code and data are publicly available at
https://cybench.github.io