ChatPaper.aiChatPaper

Cybench: Un Framework per Valutare le Capacità di Cybersecurity e il Rischio dei Modelli Linguistici

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

August 15, 2024
Autori: Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang
cs.AI

Abstract

Gli agenti basati su modelli linguistici (LM) per la cybersecurity, in grado di identificare autonomamente vulnerabilità ed eseguire exploit, hanno il potenziale di causare un impatto significativo nel mondo reale. I responsabili delle politiche, i fornitori di modelli e altri ricercatori nelle comunità di intelligenza artificiale e cybersecurity sono interessati a quantificare le capacità di tali agenti per contribuire a mitigare il rischio informatico e investigare opportunità per i test di penetrazione. A tal fine, introduciamo Cybench, un framework per specificare compiti di cybersecurity e valutare gli agenti su tali compiti. Includiamo 40 attività professionali di tipo Capture the Flag (CTF) provenienti da 4 diverse competizioni CTF, selezionate per essere recenti, significative e coprire un'ampia gamma di difficoltà. Ogni attività include la propria descrizione, file di partenza ed è inizializzata in un ambiente in cui un agente può eseguire comandi bash e osservare gli output. Poiché molte attività vanno oltre le capacità degli attuali agenti LM, introduciamo sottocompiti, che suddividono un'attività in passaggi intermedi per una valutazione più graduale; aggiungiamo sottocompiti per 17 delle 40 attività. Per valutare le capacità degli agenti, costruiamo un agente di cybersecurity e valutiamo 7 modelli: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat e Llama 3.1 405B Instruct. Senza guida, osserviamo che gli agenti sono in grado di risolvere solo le attività complete più semplici, che hanno richiesto ai team umani fino a 11 minuti per essere risolte, con Claude 3.5 Sonnet e GPT-4o che mostrano i tassi di successo più elevati. Infine, i sottocompiti forniscono un segnale più chiaro per misurare le prestazioni rispetto alle esecuzioni senza guida, con i modelli che raggiungono un tasso di successo del 3,2% più alto sulle attività complete con guida rispetto a quelle senza guida. Tutti i codici e i dati sono disponibili pubblicamente all'indirizzo https://cybench.github.io.
English
Language Model (LM) agents for cybersecurity that are capable of autonomously identifying vulnerabilities and executing exploits have the potential to cause real-world impact. Policymakers, model providers, and other researchers in the AI and cybersecurity communities are interested in quantifying the capabilities of such agents to help mitigate cyberrisk and investigate opportunities for penetration testing. Toward that end, we introduce Cybench, a framework for specifying cybersecurity tasks and evaluating agents on those tasks. We include 40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF competitions, chosen to be recent, meaningful, and spanning a wide range of difficulties. Each task includes its own description, starter files, and is initialized in an environment where an agent can execute bash commands and observe outputs. Since many tasks are beyond the capabilities of existing LM agents, we introduce subtasks, which break down a task into intermediary steps for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7 models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without guidance, we find that agents are able to solve only the easiest complete tasks that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and GPT-4o having the highest success rates. Finally, subtasks provide more signal for measuring performance compared to unguided runs, with models achieving a 3.2\% higher success rate on complete tasks with subtask-guidance than without subtask-guidance. All code and data are publicly available at https://cybench.github.io
PDF62November 19, 2024