Cyber-Zero: Cybersecurity Agents traineren zonder runtime
Cyber-Zero: Training Cybersecurity Agents without Runtime
July 29, 2025
Auteurs: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben opmerkelijke successen behaald in software-engineeringtaken wanneer ze getraind zijn met uitvoerbare runtime-omgevingen, met name bij het oplossen van GitHub-problemen. Dergelijke runtime-omgevingen zijn echter vaak niet beschikbaar in andere domeinen, vooral in cybersecurity, waar uitdagingsconfiguraties en uitvoeringscontexten vluchtig of beperkt zijn. Wij presenteren Cyber-Zero, het eerste runtime-vrije raamwerk voor het synthetiseren van hoogwaardige agenttrajecten om cybersecurity-LLMs te trainen. Cyber-Zero maakt gebruik van publiek beschikbare CTF-writeups en past persona-gestuurde LLM-simulatie toe om runtime-gedrag te reverse-engineeren en realistische, langetermijninteractiesequenties te genereren zonder daadwerkelijke omgevingen. Met behulp van door Cyber-Zero gesynthetiseerde trajecten trainen we LLM-gebaseerde agents die tot 13,1% absolute prestatieverbeteringen behalen ten opzichte van basismodellen op drie prominente CTF-benchmarks: InterCode-CTF, NYU CTF Bench en Cybench. Ons beste model, Cyber-Zero-32B, vestigt nieuwe state-of-the-art prestaties onder open-weight modellen, waarbij het de mogelijkheden evenaart van propriëtaire systemen zoals DeepSeek-V3-0324 en Claude-3.5-Sonnet, terwijl het superieure kosteneffectiviteit biedt. Dit toont aan dat runtime-vrije trajectensynthese de ontwikkeling van state-of-the-art cybersecurity agents effectief kan democratiseren.
English
Large Language Models (LLMs) have achieved remarkable success in software
engineering tasks when trained with executable runtime environments,
particularly in resolving GitHub issues. However, such runtime environments are
often unavailable in other domains, especially cybersecurity, where challenge
configurations and execution contexts are ephemeral or restricted. We present
Cyber-Zero, the first runtime-free framework for synthesizing high-quality
agent trajectories to train cybersecurity LLMs. Cyber-Zero leverages publicly
available CTF writeups and employs persona-driven LLM simulation to
reverse-engineer runtime behaviors and generate realistic, long-horizon
interaction sequences without actual environments. Using trajectories
synthesized by Cyber-Zero, we train LLM-based agents that achieve up to 13.1%
absolute performance gains over baseline models on three prominent CTF
benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best model,
Cyber-Zero-32B, establishes new state-of-the-art performance among open-weight
models, matching the capabilities of proprietary systems like DeepSeek-V3-0324
and Claude-3.5-Sonnet while offering superior cost-effectiveness, and
demonstrating that runtime-free trajectory synthesis can effectively
democratize the development of state-of-the-art cybersecurity agents.