Cybench : Un cadre d'évaluation des capacités en cybersécurité et des risques des modèles de langage
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models
August 15, 2024
Auteurs: Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang
cs.AI
Résumé
Les agents de modèle de langage (LM) pour la cybersécurité capables d'identifier de manière autonome des vulnérabilités et d'exécuter des exploits ont le potentiel de causer un impact significatif dans le monde réel. Les décideurs politiques, les fournisseurs de modèles et d'autres chercheurs des communautés de l'IA et de la cybersécurité s'intéressent à la quantification des capacités de tels agents afin d'aider à atténuer les risques cyber et d'explorer les opportunités de tests d'intrusion. Dans cette optique, nous présentons Cybench, un cadre pour spécifier des tâches de cybersécurité et évaluer les agents sur ces tâches. Nous incluons 40 tâches de niveau professionnel issues de compétitions Capture the Flag (CTF) provenant de 4 compétitions distinctes, choisies pour être récentes, significatives et couvrant un large éventail de difficultés. Chaque tâche comprend sa propre description, des fichiers de départ et est initialisée dans un environnement où un agent peut exécuter des commandes bash et observer les sorties. Étant donné que de nombreuses tâches dépassent les capacités des agents LM existants, nous introduisons des sous-tâches, qui décomposent une tâche en étapes intermédiaires pour une évaluation plus graduée ; nous ajoutons des sous-tâches pour 17 des 40 tâches. Pour évaluer les capacités des agents, nous construisons un agent de cybersécurité et évaluons 7 modèles : GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat et Llama 3.1 405B Instruct. Sans guidance, nous constatons que les agents ne parviennent à résoudre que les tâches complètes les plus simples, qui ont pris jusqu'à 11 minutes aux équipes humaines pour être résolues, avec Claude 3.5 Sonnet et GPT-4o affichant les taux de réussite les plus élevés. Enfin, les sous-tâches fournissent un signal plus fort pour mesurer les performances par rapport aux exécutions non guidées, les modèles atteignant un taux de réussite 3,2 % plus élevé sur les tâches complètes avec guidance par sous-tâches que sans guidance par sous-tâches. Tous les codes et données sont disponibles publiquement à l'adresse https://cybench.github.io.
English
Language Model (LM) agents for cybersecurity that are capable of autonomously
identifying vulnerabilities and executing exploits have the potential to cause
real-world impact. Policymakers, model providers, and other researchers in the
AI and cybersecurity communities are interested in quantifying the capabilities
of such agents to help mitigate cyberrisk and investigate opportunities for
penetration testing. Toward that end, we introduce Cybench, a framework for
specifying cybersecurity tasks and evaluating agents on those tasks. We include
40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF
competitions, chosen to be recent, meaningful, and spanning a wide range of
difficulties. Each task includes its own description, starter files, and is
initialized in an environment where an agent can execute bash commands and
observe outputs. Since many tasks are beyond the capabilities of existing LM
agents, we introduce subtasks, which break down a task into intermediary steps
for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To
evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7
models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct,
Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without
guidance, we find that agents are able to solve only the easiest complete tasks
that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and
GPT-4o having the highest success rates. Finally, subtasks provide more signal
for measuring performance compared to unguided runs, with models achieving a
3.2\% higher success rate on complete tasks with subtask-guidance than without
subtask-guidance. All code and data are publicly available at
https://cybench.github.ioSummary
AI-Generated Summary