Cybench: Фреймворк для Оценки Кибербезопасности и Риска Языковых Моделей
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models
August 15, 2024
Авторы: Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang
cs.AI
Аннотация
Агенты языковых моделей (ЯМ) для кибербезопасности, способные автономно выявлять уязвимости и выполнять эксплойты, имеют потенциал оказать реальное воздействие. Политики, провайдеры моделей и другие исследователи в области искусственного интеллекта и кибербезопасности заинтересованы в количественной оценке возможностей таких агентов для помощи в смягчении киберриска и изучении возможностей для пенетрационного тестирования. Для этой цели мы представляем Cybench, фреймворк для определения задач кибербезопасности и оценки агентов на этих задачах. Мы включаем 40 задач уровня профессионала из 4 различных соревнований Capture the Flag (CTF), выбранных как недавние, содержательные и охватывающие широкий диапазон сложностей. Каждая задача включает собственное описание, стартовые файлы и инициализируется в среде, где агент может выполнять команды bash и наблюдать вывод. Поскольку многие задачи выходят за рамки возможностей существующих агентов ЯМ, мы представляем подзадачи, которые разбивают задачу на промежуточные шаги для более пошаговой оценки; мы добавляем подзадачи для 17 из 40 задач. Для оценки возможностей агентов мы создаем кибербезопасного агента и оцениваем 7 моделей: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat и Llama 3.1 405B Instruct. Без руководства мы обнаруживаем, что агенты способны решать только самые простые полные задачи, которые занимали человеческим командам до 11 минут на решение, причем Claude 3.5 Sonnet и GPT-4o имеют наивысшие показатели успешности. Наконец, подзадачи предоставляют больше сигнала для измерения производительности по сравнению с неуправляемыми запусками, причем модели достигают на 3,2\% более высокий процент успешности на полных задачах с руководством подзадачами, чем без такого руководства. Весь код и данные общедоступны на https://cybench.github.io
English
Language Model (LM) agents for cybersecurity that are capable of autonomously
identifying vulnerabilities and executing exploits have the potential to cause
real-world impact. Policymakers, model providers, and other researchers in the
AI and cybersecurity communities are interested in quantifying the capabilities
of such agents to help mitigate cyberrisk and investigate opportunities for
penetration testing. Toward that end, we introduce Cybench, a framework for
specifying cybersecurity tasks and evaluating agents on those tasks. We include
40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF
competitions, chosen to be recent, meaningful, and spanning a wide range of
difficulties. Each task includes its own description, starter files, and is
initialized in an environment where an agent can execute bash commands and
observe outputs. Since many tasks are beyond the capabilities of existing LM
agents, we introduce subtasks, which break down a task into intermediary steps
for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To
evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7
models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct,
Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without
guidance, we find that agents are able to solve only the easiest complete tasks
that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and
GPT-4o having the highest success rates. Finally, subtasks provide more signal
for measuring performance compared to unguided runs, with models achieving a
3.2\% higher success rate on complete tasks with subtask-guidance than without
subtask-guidance. All code and data are publicly available at
https://cybench.github.ioSummary
AI-Generated Summary