Cyber-Zero: Entrenamiento de agentes de ciberseguridad sin tiempo de ejecución
Cyber-Zero: Training Cybersecurity Agents without Runtime
July 29, 2025
Autores: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en tareas de ingeniería de software cuando se entrenan con entornos de ejecución ejecutables, particularmente en la resolución de problemas en GitHub. Sin embargo, dichos entornos de ejecución a menudo no están disponibles en otros dominios, especialmente en ciberseguridad, donde las configuraciones de desafíos y los contextos de ejecución son efímeros o restringidos. Presentamos Cyber-Zero, el primer marco de trabajo libre de ejecución para sintetizar trayectorias de agentes de alta calidad con el fin de entrenar LLMs en ciberseguridad. Cyber-Zero aprovecha los writeups públicamente disponibles de CTF (Capture The Flag) y emplea simulaciones basadas en LLMs guiadas por personajes para revertir comportamientos de ejecución y generar secuencias de interacción realistas y de largo alcance sin entornos reales. Utilizando trayectorias sintetizadas por Cyber-Zero, entrenamos agentes basados en LLMs que logran mejoras de rendimiento absoluto de hasta un 13.1% sobre los modelos de referencia en tres destacados benchmarks de CTF: InterCode-CTF, NYU CTF Bench y Cybench. Nuestro mejor modelo, Cyber-Zero-32B, establece un nuevo estado del arte en rendimiento entre los modelos de peso abierto, igualando las capacidades de sistemas propietarios como DeepSeek-V3-0324 y Claude-3.5-Sonnet, mientras ofrece una relación costo-efectividad superior, y demuestra que la síntesis de trayectorias libre de ejecución puede democratizar efectivamente el desarrollo de agentes de ciberseguridad de última generación.
English
Large Language Models (LLMs) have achieved remarkable success in software
engineering tasks when trained with executable runtime environments,
particularly in resolving GitHub issues. However, such runtime environments are
often unavailable in other domains, especially cybersecurity, where challenge
configurations and execution contexts are ephemeral or restricted. We present
Cyber-Zero, the first runtime-free framework for synthesizing high-quality
agent trajectories to train cybersecurity LLMs. Cyber-Zero leverages publicly
available CTF writeups and employs persona-driven LLM simulation to
reverse-engineer runtime behaviors and generate realistic, long-horizon
interaction sequences without actual environments. Using trajectories
synthesized by Cyber-Zero, we train LLM-based agents that achieve up to 13.1%
absolute performance gains over baseline models on three prominent CTF
benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best model,
Cyber-Zero-32B, establishes new state-of-the-art performance among open-weight
models, matching the capabilities of proprietary systems like DeepSeek-V3-0324
and Claude-3.5-Sonnet while offering superior cost-effectiveness, and
demonstrating that runtime-free trajectory synthesis can effectively
democratize the development of state-of-the-art cybersecurity agents.