Cyber-Zero: Training von Cybersicherheits-Agenten ohne Laufzeit
Cyber-Zero: Training Cybersecurity Agents without Runtime
July 29, 2025
papers.authors: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge bei Softwareentwicklungsaufgaben erzielt, wenn sie mit ausführbaren Laufzeitumgebungen trainiert wurden, insbesondere bei der Lösung von GitHub-Issues. Solche Laufzeitumgebungen sind jedoch in anderen Domänen, insbesondere in der Cybersicherheit, oft nicht verfügbar, da Challenge-Konfigurationen und Ausführungskontexte flüchtig oder eingeschränkt sind. Wir stellen Cyber-Zero vor, das erste laufzeitfreie Framework zur Synthese hochwertiger Agenten-Trajektorien für das Training von Cybersicherheits-LLMs. Cyber-Zero nutzt öffentlich verfügbare CTF-Writeups und setzt persona-gesteuerte LLM-Simulation ein, um Laufzeitverhalten zu rekonstruieren und realistische, langfristige Interaktionssequenzen ohne tatsächliche Umgebungen zu generieren. Mit den von Cyber-Zero synthetisierten Trajektorien trainieren wir LLM-basierte Agenten, die auf drei prominenten CTF-Benchmarks – InterCode-CTF, NYU CTF Bench und Cybench – absolute Leistungssteigerungen von bis zu 13,1 % gegenüber Baseline-Modellen erzielen. Unser bestes Modell, Cyber-Zero-32B, etabliert eine neue State-of-the-Art-Leistung unter Open-Weight-Modellen und erreicht die Fähigkeiten proprietärer Systeme wie DeepSeek-V3-0324 und Claude-3.5-Sonnet, bietet dabei jedoch eine überlegene Kosteneffizienz und zeigt, dass die laufzeitfreie Trajektoriensynthese die Entwicklung von State-of-the-Art-Cybersicherheitsagenten effektiv demokratisieren kann.
English
Large Language Models (LLMs) have achieved remarkable success in software
engineering tasks when trained with executable runtime environments,
particularly in resolving GitHub issues. However, such runtime environments are
often unavailable in other domains, especially cybersecurity, where challenge
configurations and execution contexts are ephemeral or restricted. We present
Cyber-Zero, the first runtime-free framework for synthesizing high-quality
agent trajectories to train cybersecurity LLMs. Cyber-Zero leverages publicly
available CTF writeups and employs persona-driven LLM simulation to
reverse-engineer runtime behaviors and generate realistic, long-horizon
interaction sequences without actual environments. Using trajectories
synthesized by Cyber-Zero, we train LLM-based agents that achieve up to 13.1%
absolute performance gains over baseline models on three prominent CTF
benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best model,
Cyber-Zero-32B, establishes new state-of-the-art performance among open-weight
models, matching the capabilities of proprietary systems like DeepSeek-V3-0324
and Claude-3.5-Sonnet while offering superior cost-effectiveness, and
demonstrating that runtime-free trajectory synthesis can effectively
democratize the development of state-of-the-art cybersecurity agents.