Cybench: Ein Rahmenwerk zur Bewertung der Cybersicherheitsfähigkeiten und Risiken von Sprachmodellen
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models
August 15, 2024
Autoren: Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang
cs.AI
Zusammenfassung
Sprachmodell (LM)-Agenten für Cybersicherheit, die in der Lage sind, Schwachstellen autonom zu identifizieren und Exploits auszuführen, haben das Potenzial, realweltliche Auswirkungen zu verursachen. Entscheidungsträger, Modellanbieter und andere Forscher in den KI- und Cybersicherheitsgemeinschaften sind daran interessiert, die Fähigkeiten solcher Agenten zu quantifizieren, um Cyberrisiken zu mindern und Möglichkeiten für Penetrationstests zu untersuchen. Zu diesem Zweck stellen wir Cybench vor, ein Rahmenwerk zur Spezifizierung von Cybersicherheitsaufgaben und zur Bewertung von Agenten in Bezug auf diese Aufgaben. Wir haben 40 professionelle Capture the Flag (CTF)-Aufgaben aus 4 verschiedenen CTF-Wettbewerben ausgewählt, die aktuell, bedeutsam und von unterschiedlichem Schwierigkeitsgrad sind. Jede Aufgabe enthält eine eigene Beschreibung, Startdateien und wird in einer Umgebung initialisiert, in der ein Agent Bash-Befehle ausführen und Ausgaben beobachten kann. Da viele Aufgaben über die Fähigkeiten bestehender LM-Agenten hinausgehen, führen wir Teilaufgaben ein, die eine Aufgabe in Zwischenschritte für eine differenziertere Bewertung aufteilen; wir fügen Teilaufgaben für 17 der 40 Aufgaben hinzu. Zur Bewertung der Agentenfähigkeiten konstruieren wir einen Cybersicherheitsagenten und bewerten 7 Modelle: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat und Llama 3.1 405B Instruct. Ohne Anleitung stellen wir fest, dass Agenten nur die einfachsten vollständigen Aufgaben lösen können, die menschliche Teams bis zu 11 Minuten benötigten, wobei Claude 3.5 Sonnet und GPT-4o die höchsten Erfolgsraten aufweisen. Schließlich liefern Teilaufgaben mehr Signale zur Messung der Leistung im Vergleich zu ungesteuerten Durchläufen, wobei Modelle eine um 3,2\% höhere Erfolgsrate bei vollständigen Aufgaben mit Teilaufgaben-Anleitung erzielen als ohne Teilaufgaben-Anleitung. Der gesamte Code und die Daten sind öffentlich unter https://cybench.github.io verfügbar.
English
Language Model (LM) agents for cybersecurity that are capable of autonomously
identifying vulnerabilities and executing exploits have the potential to cause
real-world impact. Policymakers, model providers, and other researchers in the
AI and cybersecurity communities are interested in quantifying the capabilities
of such agents to help mitigate cyberrisk and investigate opportunities for
penetration testing. Toward that end, we introduce Cybench, a framework for
specifying cybersecurity tasks and evaluating agents on those tasks. We include
40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF
competitions, chosen to be recent, meaningful, and spanning a wide range of
difficulties. Each task includes its own description, starter files, and is
initialized in an environment where an agent can execute bash commands and
observe outputs. Since many tasks are beyond the capabilities of existing LM
agents, we introduce subtasks, which break down a task into intermediary steps
for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To
evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7
models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct,
Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without
guidance, we find that agents are able to solve only the easiest complete tasks
that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and
GPT-4o having the highest success rates. Finally, subtasks provide more signal
for measuring performance compared to unguided runs, with models achieving a
3.2\% higher success rate on complete tasks with subtask-guidance than without
subtask-guidance. All code and data are publicly available at
https://cybench.github.ioSummary
AI-Generated Summary