Cybench: Un marco para evaluar las capacidades de ciberseguridad y el riesgo de los modelos de lenguaje.

Resumen

Los agentes de Modelos de Lenguaje (LM, por sus siglas en inglés) para ciberseguridad que son capaces de identificar de forma autónoma vulnerabilidades y ejecutar exploits tienen el potencial de causar un impacto real en el mundo. Los responsables de políticas, proveedores de modelos y otros investigadores en las comunidades de IA y ciberseguridad están interesados en cuantificar las capacidades de tales agentes para ayudar a mitigar el ciberriesgo e investigar oportunidades para pruebas de penetración. Con ese fin, presentamos Cybench, un marco para especificar tareas de ciberseguridad y evaluar agentes en esas tareas. Incluimos 40 tareas de Capture the Flag (CTF) de nivel profesional de 4 competiciones CTF distintas, seleccionadas por ser recientes, significativas y abarcar una amplia gama de dificultades. Cada tarea incluye su propia descripción, archivos de inicio, y se inicializa en un entorno donde un agente puede ejecutar comandos bash y observar salidas. Dado que muchas tareas están más allá de las capacidades de los agentes LM existentes, introducimos subtareas, que descomponen una tarea en pasos intermedios para una evaluación más graduada; añadimos subtareas para 17 de las 40 tareas. Para evaluar las capacidades del agente, construimos un agente de ciberseguridad y evaluamos 7 modelos: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, y Llama 3.1 405B Instruct. Sin orientación, encontramos que los agentes solo pueden resolver las tareas completas más fáciles que llevaron a equipos humanos hasta 11 minutos resolver, siendo Claude 3.5 Sonnet y GPT-4o los que tienen las tasas de éxito más altas. Finalmente, las subtareas proporcionan más señal para medir el rendimiento en comparación con las ejecuciones sin guía, con los modelos logrando una tasa de éxito un 3.2\% mayor en tareas completas con orientación de subtareas que sin orientación de subtareas. Todo el código y los datos están disponibles públicamente en https://cybench.github.io

English

Language Model (LM) agents for cybersecurity that are capable of autonomously identifying vulnerabilities and executing exploits have the potential to cause real-world impact. Policymakers, model providers, and other researchers in the AI and cybersecurity communities are interested in quantifying the capabilities of such agents to help mitigate cyberrisk and investigate opportunities for penetration testing. Toward that end, we introduce Cybench, a framework for specifying cybersecurity tasks and evaluating agents on those tasks. We include 40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF competitions, chosen to be recent, meaningful, and spanning a wide range of difficulties. Each task includes its own description, starter files, and is initialized in an environment where an agent can execute bash commands and observe outputs. Since many tasks are beyond the capabilities of existing LM agents, we introduce subtasks, which break down a task into intermediary steps for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7 models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without guidance, we find that agents are able to solve only the easiest complete tasks that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and GPT-4o having the highest success rates. Finally, subtasks provide more signal for measuring performance compared to unguided runs, with models achieving a 3.2\% higher success rate on complete tasks with subtask-guidance than without subtask-guidance. All code and data are publicly available at https://cybench.github.io

Cybench: Un marco para evaluar las capacidades de ciberseguridad y el riesgo de los modelos de lenguaje.

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

Resumen

Support