Cyber-Zero: Treinando Agentes de Cibersegurança sem Tempo de Execução
Cyber-Zero: Training Cybersecurity Agents without Runtime
July 29, 2025
Autores: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm alcançado sucesso notável em tarefas de engenharia de software quando treinados com ambientes de execução executáveis, particularmente na resolução de problemas do GitHub. No entanto, tais ambientes de execução frequentemente não estão disponíveis em outros domínios, especialmente em cibersegurança, onde as configurações de desafios e contextos de execução são efêmeros ou restritos. Apresentamos o Cyber-Zero, o primeiro framework livre de execução para sintetizar trajetórias de agentes de alta qualidade para treinar LLMs de cibersegurança. O Cyber-Zero aproveita writeups de CTFs disponíveis publicamente e emprega simulação de LLMs baseada em personas para engenharia reversa de comportamentos de execução e geração de sequências de interação realistas e de longo horizonte sem ambientes reais. Utilizando trajetórias sintetizadas pelo Cyber-Zero, treinamos agentes baseados em LLMs que alcançam ganhos de desempenho absoluto de até 13,1% sobre modelos de linha de base em três benchmarks proeminentes de CTF: InterCode-CTF, NYU CTF Bench e Cybench. Nosso melhor modelo, o Cyber-Zero-32B, estabelece um novo estado da arte em desempenho entre modelos de peso aberto, equiparando-se às capacidades de sistemas proprietários como DeepSeek-V3-0324 e Claude-3.5-Sonnet, ao mesmo tempo que oferece superior custo-benefício, demonstrando que a síntese de trajetórias livre de execução pode efetivamente democratizar o desenvolvimento de agentes de cibersegurança de última geração.
English
Large Language Models (LLMs) have achieved remarkable success in software
engineering tasks when trained with executable runtime environments,
particularly in resolving GitHub issues. However, such runtime environments are
often unavailable in other domains, especially cybersecurity, where challenge
configurations and execution contexts are ephemeral or restricted. We present
Cyber-Zero, the first runtime-free framework for synthesizing high-quality
agent trajectories to train cybersecurity LLMs. Cyber-Zero leverages publicly
available CTF writeups and employs persona-driven LLM simulation to
reverse-engineer runtime behaviors and generate realistic, long-horizon
interaction sequences without actual environments. Using trajectories
synthesized by Cyber-Zero, we train LLM-based agents that achieve up to 13.1%
absolute performance gains over baseline models on three prominent CTF
benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best model,
Cyber-Zero-32B, establishes new state-of-the-art performance among open-weight
models, matching the capabilities of proprietary systems like DeepSeek-V3-0324
and Claude-3.5-Sonnet while offering superior cost-effectiveness, and
demonstrating that runtime-free trajectory synthesis can effectively
democratize the development of state-of-the-art cybersecurity agents.