Cybench: Фреймворк для Оценки Кибербезопасности и Риска Языковых Моделей

Аннотация

Агенты языковых моделей (ЯМ) для кибербезопасности, способные автономно выявлять уязвимости и выполнять эксплойты, имеют потенциал оказать реальное воздействие. Политики, провайдеры моделей и другие исследователи в области искусственного интеллекта и кибербезопасности заинтересованы в количественной оценке возможностей таких агентов для помощи в смягчении киберриска и изучении возможностей для пенетрационного тестирования. Для этой цели мы представляем Cybench, фреймворк для определения задач кибербезопасности и оценки агентов на этих задачах. Мы включаем 40 задач уровня профессионала из 4 различных соревнований Capture the Flag (CTF), выбранных как недавние, содержательные и охватывающие широкий диапазон сложностей. Каждая задача включает собственное описание, стартовые файлы и инициализируется в среде, где агент может выполнять команды bash и наблюдать вывод. Поскольку многие задачи выходят за рамки возможностей существующих агентов ЯМ, мы представляем подзадачи, которые разбивают задачу на промежуточные шаги для более пошаговой оценки; мы добавляем подзадачи для 17 из 40 задач. Для оценки возможностей агентов мы создаем кибербезопасного агента и оцениваем 7 моделей: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat и Llama 3.1 405B Instruct. Без руководства мы обнаруживаем, что агенты способны решать только самые простые полные задачи, которые занимали человеческим командам до 11 минут на решение, причем Claude 3.5 Sonnet и GPT-4o имеют наивысшие показатели успешности. Наконец, подзадачи предоставляют больше сигнала для измерения производительности по сравнению с неуправляемыми запусками, причем модели достигают на 3,2\% более высокий процент успешности на полных задачах с руководством подзадачами, чем без такого руководства. Весь код и данные общедоступны на https://cybench.github.io

English

Language Model (LM) agents for cybersecurity that are capable of autonomously identifying vulnerabilities and executing exploits have the potential to cause real-world impact. Policymakers, model providers, and other researchers in the AI and cybersecurity communities are interested in quantifying the capabilities of such agents to help mitigate cyberrisk and investigate opportunities for penetration testing. Toward that end, we introduce Cybench, a framework for specifying cybersecurity tasks and evaluating agents on those tasks. We include 40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF competitions, chosen to be recent, meaningful, and spanning a wide range of difficulties. Each task includes its own description, starter files, and is initialized in an environment where an agent can execute bash commands and observe outputs. Since many tasks are beyond the capabilities of existing LM agents, we introduce subtasks, which break down a task into intermediary steps for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7 models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without guidance, we find that agents are able to solve only the easiest complete tasks that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and GPT-4o having the highest success rates. Finally, subtasks provide more signal for measuring performance compared to unguided runs, with models achieving a 3.2\% higher success rate on complete tasks with subtask-guidance than without subtask-guidance. All code and data are publicly available at https://cybench.github.io

Cybench: Фреймворк для Оценки Кибербезопасности и Риска Языковых Моделей

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

Аннотация

Support