Cyber-Zero: Обучение агентов кибербезопасности без выполнения в реальном времени
Cyber-Zero: Training Cybersecurity Agents without Runtime
July 29, 2025
Авторы: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли значительных успехов в задачах программной инженерии при обучении с использованием исполняемых сред выполнения, особенно в решении проблем на GitHub. Однако такие среды выполнения часто недоступны в других областях, особенно в кибербезопасности, где конфигурации задач и контексты выполнения являются временными или ограниченными. Мы представляем Cyber-Zero — первую среду без среды выполнения для синтеза высококачественных траекторий агентов с целью обучения LLM в области кибербезопасности. Cyber-Zero использует публично доступные отчеты о CTF (Capture The Flag) и применяет симуляцию на основе персонажей с использованием LLM для обратного проектирования поведения среды выполнения и генерации реалистичных, долгосрочных последовательностей взаимодействий без реальных сред. Используя траектории, синтезированные Cyber-Zero, мы обучаем агентов на основе LLM, которые демонстрируют абсолютное улучшение производительности до 13,1% по сравнению с базовыми моделями на трех известных CTF-бенчмарках: InterCode-CTF, NYU CTF Bench и Cybench. Наша лучшая модель, Cyber-Zero-32B, устанавливает новый уровень производительности среди моделей с открытыми весами, сопоставимый с возможностями проприетарных систем, таких как DeepSeek-V3-0324 и Claude-3.5-Sonnet, при этом предлагая превосходную экономическую эффективность и демонстрируя, что синтез траекторий без среды выполнения может эффективно демократизировать разработку передовых агентов в области кибербезопасности.
English
Large Language Models (LLMs) have achieved remarkable success in software
engineering tasks when trained with executable runtime environments,
particularly in resolving GitHub issues. However, such runtime environments are
often unavailable in other domains, especially cybersecurity, where challenge
configurations and execution contexts are ephemeral or restricted. We present
Cyber-Zero, the first runtime-free framework for synthesizing high-quality
agent trajectories to train cybersecurity LLMs. Cyber-Zero leverages publicly
available CTF writeups and employs persona-driven LLM simulation to
reverse-engineer runtime behaviors and generate realistic, long-horizon
interaction sequences without actual environments. Using trajectories
synthesized by Cyber-Zero, we train LLM-based agents that achieve up to 13.1%
absolute performance gains over baseline models on three prominent CTF
benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best model,
Cyber-Zero-32B, establishes new state-of-the-art performance among open-weight
models, matching the capabilities of proprietary systems like DeepSeek-V3-0324
and Claude-3.5-Sonnet while offering superior cost-effectiveness, and
demonstrating that runtime-free trajectory synthesis can effectively
democratize the development of state-of-the-art cybersecurity agents.