ChatPaper.aiChatPaper

Cybench : Un cadre d'évaluation des capacités en cybersécurité et des risques des modèles de langage

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

August 15, 2024
Auteurs: Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang
cs.AI

Résumé

Les agents de modèle de langage (LM) pour la cybersécurité capables d'identifier de manière autonome des vulnérabilités et d'exécuter des exploits ont le potentiel de causer un impact significatif dans le monde réel. Les décideurs politiques, les fournisseurs de modèles et d'autres chercheurs des communautés de l'IA et de la cybersécurité s'intéressent à la quantification des capacités de tels agents afin d'aider à atténuer les risques cyber et d'explorer les opportunités de tests d'intrusion. Dans cette optique, nous présentons Cybench, un cadre pour spécifier des tâches de cybersécurité et évaluer les agents sur ces tâches. Nous incluons 40 tâches de niveau professionnel issues de compétitions Capture the Flag (CTF) provenant de 4 compétitions distinctes, choisies pour être récentes, significatives et couvrant un large éventail de difficultés. Chaque tâche comprend sa propre description, des fichiers de départ et est initialisée dans un environnement où un agent peut exécuter des commandes bash et observer les sorties. Étant donné que de nombreuses tâches dépassent les capacités des agents LM existants, nous introduisons des sous-tâches, qui décomposent une tâche en étapes intermédiaires pour une évaluation plus graduée ; nous ajoutons des sous-tâches pour 17 des 40 tâches. Pour évaluer les capacités des agents, nous construisons un agent de cybersécurité et évaluons 7 modèles : GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat et Llama 3.1 405B Instruct. Sans guidance, nous constatons que les agents ne parviennent à résoudre que les tâches complètes les plus simples, qui ont pris jusqu'à 11 minutes aux équipes humaines pour être résolues, avec Claude 3.5 Sonnet et GPT-4o affichant les taux de réussite les plus élevés. Enfin, les sous-tâches fournissent un signal plus fort pour mesurer les performances par rapport aux exécutions non guidées, les modèles atteignant un taux de réussite 3,2 % plus élevé sur les tâches complètes avec guidance par sous-tâches que sans guidance par sous-tâches. Tous les codes et données sont disponibles publiquement à l'adresse https://cybench.github.io.
English
Language Model (LM) agents for cybersecurity that are capable of autonomously identifying vulnerabilities and executing exploits have the potential to cause real-world impact. Policymakers, model providers, and other researchers in the AI and cybersecurity communities are interested in quantifying the capabilities of such agents to help mitigate cyberrisk and investigate opportunities for penetration testing. Toward that end, we introduce Cybench, a framework for specifying cybersecurity tasks and evaluating agents on those tasks. We include 40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF competitions, chosen to be recent, meaningful, and spanning a wide range of difficulties. Each task includes its own description, starter files, and is initialized in an environment where an agent can execute bash commands and observe outputs. Since many tasks are beyond the capabilities of existing LM agents, we introduce subtasks, which break down a task into intermediary steps for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7 models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without guidance, we find that agents are able to solve only the easiest complete tasks that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and GPT-4o having the highest success rates. Finally, subtasks provide more signal for measuring performance compared to unguided runs, with models achieving a 3.2\% higher success rate on complete tasks with subtask-guidance than without subtask-guidance. All code and data are publicly available at https://cybench.github.io

Summary

AI-Generated Summary

PDF62November 19, 2024