ChatPaper.aiChatPaper

サイバーゼロ:ランタイムを使用しないサイバーセキュリティエージェントのトレーニング

Cyber-Zero: Training Cybersecurity Agents without Runtime

July 29, 2025
著者: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
cs.AI

要旨

大規模言語モデル(LLMs)は、実行可能なランタイム環境でトレーニングされた場合、特にGitHubの課題解決において、ソフトウェアエンジニアリングタスクで顕著な成功を収めています。しかし、そのようなランタイム環境は、他の分野、特にサイバーセキュリティではしばしば利用できません。サイバーセキュリティでは、課題設定や実行コンテキストが一時的または制限されていることが多いためです。本論文では、ランタイムを必要とせずに高品質なエージェント軌跡を合成し、サイバーセキュリティLLMsをトレーニングするための初のフレームワークであるCyber-Zeroを提案します。Cyber-Zeroは、公開されているCTF(Capture The Flag)のWriteupを活用し、ペルソナ駆動型のLLMシミュレーションを用いてランタイムの動作を逆解析し、実際の環境なしで現実的で長期的なインタラクションシーケンスを生成します。Cyber-Zeroによって合成された軌跡を用いて、我々はLLMベースのエージェントをトレーニングし、InterCode-CTF、NYU CTF Bench、Cybenchという3つの主要なCTFベンチマークにおいて、ベースラインモデルに対して最大13.1%の絶対的な性能向上を達成しました。我々の最良のモデルであるCyber-Zero-32Bは、オープンウェイトモデルの中で新たな最先端の性能を確立し、DeepSeek-V3-0324やClaude-3.5-Sonnetのようなプロプライエタリシステムの能力に匹敵しつつ、優れたコスト効率を提供します。これにより、ランタイムフリーの軌跡合成が、最先端のサイバーセキュリティエージェントの開発を効果的に民主化できることが実証されました。
English
Large Language Models (LLMs) have achieved remarkable success in software engineering tasks when trained with executable runtime environments, particularly in resolving GitHub issues. However, such runtime environments are often unavailable in other domains, especially cybersecurity, where challenge configurations and execution contexts are ephemeral or restricted. We present Cyber-Zero, the first runtime-free framework for synthesizing high-quality agent trajectories to train cybersecurity LLMs. Cyber-Zero leverages publicly available CTF writeups and employs persona-driven LLM simulation to reverse-engineer runtime behaviors and generate realistic, long-horizon interaction sequences without actual environments. Using trajectories synthesized by Cyber-Zero, we train LLM-based agents that achieve up to 13.1% absolute performance gains over baseline models on three prominent CTF benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best model, Cyber-Zero-32B, establishes new state-of-the-art performance among open-weight models, matching the capabilities of proprietary systems like DeepSeek-V3-0324 and Claude-3.5-Sonnet while offering superior cost-effectiveness, and demonstrating that runtime-free trajectory synthesis can effectively democratize the development of state-of-the-art cybersecurity agents.
PDF52August 5, 2025