ChatPaper.aiChatPaper

사이버 제로(Cyber-Zero): 런타임 없이 사이버 보안 에이전트 훈련하기

Cyber-Zero: Training Cybersecurity Agents without Runtime

July 29, 2025
저자: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
cs.AI

초록

대형 언어 모델(LLMs)은 실행 가능한 런타임 환경과 함께 학습될 경우 소프트웨어 엔지니어링 작업, 특히 GitHub 이슈 해결에서 놀라운 성과를 거두었습니다. 그러나 이러한 런타임 환경은 다른 도메인, 특히 사이버 보안에서는 종종 사용할 수 없으며, 여기서는 챌린지 구성과 실행 컨텍스트가 일시적이거나 제한적입니다. 우리는 사이버 보안 LLMs를 학습시키기 위해 고품질 에이전트 궤적을 합성하는 최초의 런타임 프리 프레임워크인 Cyber-Zero를 소개합니다. Cyber-Zero는 공개적으로 이용 가능한 CTF(캡처 더 플래그) writeup을 활용하고, 페르소나 기반 LLM 시뮬레이션을 통해 런타임 동작을 역공학하여 실제 환경 없이도 현실적이고 장기적인 상호작용 시퀀스를 생성합니다. Cyber-Zero가 합성한 궤적을 사용하여, 우리는 LLM 기반 에이전트를 학습시켰으며, 이는 InterCode-CTF, NYU CTF Bench, Cybench라는 세 가지 주요 CTF 벤치마크에서 기준 모델 대비 최대 13.1%의 절대 성능 향상을 달성했습니다. 우리의 최고 모델인 Cyber-Zero-32B는 오픈 웨이트 모델 중에서 새로운 최첨단 성능을 확립하며, DeepSeek-V3-0324 및 Claude-3.5-Sonnet과 같은 독점 시스템의 능력을 맞추면서도 더 우수한 비용 효율성을 제공합니다. 이를 통해 런타임 프리 궤적 합성이 최첨단 사이버 보안 에이전트 개발을 효과적으로 민주화할 수 있음을 입증했습니다.
English
Large Language Models (LLMs) have achieved remarkable success in software engineering tasks when trained with executable runtime environments, particularly in resolving GitHub issues. However, such runtime environments are often unavailable in other domains, especially cybersecurity, where challenge configurations and execution contexts are ephemeral or restricted. We present Cyber-Zero, the first runtime-free framework for synthesizing high-quality agent trajectories to train cybersecurity LLMs. Cyber-Zero leverages publicly available CTF writeups and employs persona-driven LLM simulation to reverse-engineer runtime behaviors and generate realistic, long-horizon interaction sequences without actual environments. Using trajectories synthesized by Cyber-Zero, we train LLM-based agents that achieve up to 13.1% absolute performance gains over baseline models on three prominent CTF benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best model, Cyber-Zero-32B, establishes new state-of-the-art performance among open-weight models, matching the capabilities of proprietary systems like DeepSeek-V3-0324 and Claude-3.5-Sonnet while offering superior cost-effectiveness, and demonstrating that runtime-free trajectory synthesis can effectively democratize the development of state-of-the-art cybersecurity agents.
PDF52August 5, 2025