Cybench: Een Raamwerk voor het Evalueren van Cybersecuritycapaciteiten en Risico's van Taalmodellen
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models
August 15, 2024
Auteurs: Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang
cs.AI
Samenvatting
Taalmodel (LM) agents voor cybersecurity die in staat zijn om zelfstandig kwetsbaarheden te identificeren en exploits uit te voeren, hebben het potentieel om een reële impact te hebben. Beleidsmakers, modelaanbieders en andere onderzoekers binnen de AI- en cybersecuritygemeenschappen zijn geïnteresseerd in het kwantificeren van de mogelijkheden van dergelijke agents om cyberrisico's te beperken en mogelijkheden voor penetratietesten te onderzoeken. Met dat doel introduceren we Cybench, een raamwerk voor het specificeren van cybersecuritytaken en het evalueren van agents op die taken. We nemen 40 professionele Capture the Flag (CTF)-taken op uit 4 verschillende CTF-competities, geselecteerd omdat ze recent, betekenisvol en een breed scala aan moeilijkheidsgraden omvatten. Elke taak bevat een eigen beschrijving, startbestanden en wordt geïnitialiseerd in een omgeving waar een agent bash-commando's kan uitvoeren en uitvoer kan observeren. Omdat veel taken buiten de mogelijkheden van bestaande LM-agents vallen, introduceren we subtaken, die een taak opdelen in tussenstappen voor een meer geleidelijke evaluatie; we voegen subtaken toe voor 17 van de 40 taken. Om de mogelijkheden van agents te evalueren, construeren we een cybersecurityagent en evalueren we 7 modellen: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat en Llama 3.1 405B Instruct. Zonder begeleiding blijken agents alleen de eenvoudigste volledige taken op te kunnen lossen die menselijke teams tot 11 minuten kostten, waarbij Claude 3.5 Sonnet en GPT-4o de hoogste slagingspercentages hebben. Ten slotte bieden subtaken meer signalen voor het meten van prestaties in vergelijking met onbegeleide runs, waarbij modellen een 3,2% hoger slagingspercentage behalen op volledige taken met subtask-begeleiding dan zonder subtask-begeleiding. Alle code en gegevens zijn openbaar beschikbaar op https://cybench.github.io.
English
Language Model (LM) agents for cybersecurity that are capable of autonomously
identifying vulnerabilities and executing exploits have the potential to cause
real-world impact. Policymakers, model providers, and other researchers in the
AI and cybersecurity communities are interested in quantifying the capabilities
of such agents to help mitigate cyberrisk and investigate opportunities for
penetration testing. Toward that end, we introduce Cybench, a framework for
specifying cybersecurity tasks and evaluating agents on those tasks. We include
40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF
competitions, chosen to be recent, meaningful, and spanning a wide range of
difficulties. Each task includes its own description, starter files, and is
initialized in an environment where an agent can execute bash commands and
observe outputs. Since many tasks are beyond the capabilities of existing LM
agents, we introduce subtasks, which break down a task into intermediary steps
for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To
evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7
models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct,
Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without
guidance, we find that agents are able to solve only the easiest complete tasks
that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and
GPT-4o having the highest success rates. Finally, subtasks provide more signal
for measuring performance compared to unguided runs, with models achieving a
3.2\% higher success rate on complete tasks with subtask-guidance than without
subtask-guidance. All code and data are publicly available at
https://cybench.github.ioSummary
AI-Generated Summary