Cyber-Zero : Entraînement des agents de cybersécurité sans exécution en temps réel
Cyber-Zero: Training Cybersecurity Agents without Runtime
July 29, 2025
papers.authors: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont obtenu un succès remarquable dans les tâches de génie logiciel lorsqu'ils sont entraînés avec des environnements d'exécution exécutables, en particulier pour la résolution de problèmes sur GitHub. Cependant, de tels environnements d'exécution sont souvent indisponibles dans d'autres domaines, notamment la cybersécurité, où les configurations de défis et les contextes d'exécution sont éphémères ou restreints. Nous présentons Cyber-Zero, le premier cadre sans environnement d'exécution pour synthétiser des trajectoires d'agents de haute qualité afin d'entraîner des LLMs en cybersécurité. Cyber-Zero exploite les writeups de CTF (Capture The Flag) disponibles publiquement et utilise une simulation pilotée par des personas pour reconstruire les comportements d'exécution et générer des séquences d'interaction réalistes et à long terme sans recourir à des environnements réels. En utilisant les trajectoires synthétisées par Cyber-Zero, nous entraînons des agents basés sur des LLMs qui obtiennent des gains de performance absolus allant jusqu'à 13,1 % par rapport aux modèles de référence sur trois benchmarks CTF majeurs : InterCode-CTF, NYU CTF Bench et Cybench. Notre meilleur modèle, Cyber-Zero-32B, établit de nouvelles performances de pointe parmi les modèles à poids ouvert, rivalisant avec les capacités des systèmes propriétaires comme DeepSeek-V3-0324 et Claude-3.5-Sonnet tout en offrant une meilleure rentabilité, et démontrant que la synthèse de trajectoires sans environnement d'exécution peut efficacement démocratiser le développement d'agents de cybersécurité de pointe.
English
Large Language Models (LLMs) have achieved remarkable success in software
engineering tasks when trained with executable runtime environments,
particularly in resolving GitHub issues. However, such runtime environments are
often unavailable in other domains, especially cybersecurity, where challenge
configurations and execution contexts are ephemeral or restricted. We present
Cyber-Zero, the first runtime-free framework for synthesizing high-quality
agent trajectories to train cybersecurity LLMs. Cyber-Zero leverages publicly
available CTF writeups and employs persona-driven LLM simulation to
reverse-engineer runtime behaviors and generate realistic, long-horizon
interaction sequences without actual environments. Using trajectories
synthesized by Cyber-Zero, we train LLM-based agents that achieve up to 13.1%
absolute performance gains over baseline models on three prominent CTF
benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best model,
Cyber-Zero-32B, establishes new state-of-the-art performance among open-weight
models, matching the capabilities of proprietary systems like DeepSeek-V3-0324
and Claude-3.5-Sonnet while offering superior cost-effectiveness, and
demonstrating that runtime-free trajectory synthesis can effectively
democratize the development of state-of-the-art cybersecurity agents.