Schulung von Sprachmodell-Agenten zur Identifizierung von Schwachstellen mit CTF-Dojo
Training Language Model Agents to Find Vulnerabilities with CTF-Dojo
August 25, 2025
papers.authors: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben außergewöhnliche Fähigkeiten gezeigt, wenn sie in ausführbaren Laufzeitumgebungen trainiert werden, insbesondere durch ihre hervorragende Leistung bei Softwareentwicklungsaufgaben mittels verifizierter Feedback-Schleifen. Dennoch bleiben skalierbare und generalisierbare, ausführungsbasierte Umgebungen rar, was den Fortschritt beim Training leistungsfähigerer ML-Agenten einschränkt. Wir stellen CTF-Dojo vor, die erste groß angelegte ausführbare Laufzeitumgebung, die speziell für das Training von LLMs mit verifizierbarem Feedback entwickelt wurde und 658 voll funktionsfähige Capture-The-Flag (CTF)-artige Herausforderungen bietet, die in Docker containerisiert sind und garantierte Reproduzierbarkeit bieten. Um eine schnelle Skalierung ohne manuelle Eingriffe zu ermöglichen, haben wir CTF-Forge entwickelt, eine automatisierte Pipeline, die öffentlich verfügbare Artefakte in wenigen Minuten in einsatzbereite Ausführungsumgebungen umwandelt und damit wochenlange Expertenkonfigurationen überflüssig macht. Wir haben LLM-basierte Agenten mit nur 486 hochwertigen, ausführungsverifizierten Trajektorien aus CTF-Dojo trainiert und dabei absolute Verbesserungen von bis zu 11,6 % gegenüber starken Baselines in drei wettbewerbsfähigen Benchmarks erzielt: InterCode-CTF, NYU CTF Bench und Cybench. Unser bestes 32B-Modell erreicht 31,9 % Pass@1 und setzt damit einen neuen Open-Weight-State-of-the-art, der mit Spitzenmodellen wie DeepSeek-V3-0324 und Gemini-2.5-Flash konkurriert. Indem wir CTF-artige Aufgaben als Benchmark für das Lernen ausführbarer Agenten betrachten, zeigt CTF-Dojo, dass ausführungsbasierte Trainingssignale nicht nur effektiv, sondern entscheidend für die Weiterentwicklung hochleistungsfähiger ML-Agenten sind, ohne auf kostspielige proprietäre Systeme angewiesen zu sein.
English
Large language models (LLMs) have demonstrated exceptional capabilities when
trained within executable runtime environments, notably excelling at software
engineering tasks through verified feedback loops. Yet, scalable and
generalizable execution-grounded environments remain scarce, limiting progress
in training more capable ML agents. We introduce CTF-Dojo, the first
large-scale executable runtime tailored for training LLMs with verifiable
feedback, featuring 658 fully functional Capture-The-Flag (CTF)-style
challenges containerized in Docker with guaranteed reproducibility. To enable
rapid scaling without manual intervention, we develop CTF-Forge, an automated
pipeline that transforms publicly available artifacts into ready-to-use
execution environments in minutes, eliminating weeks of expert configuration
traditionally required. We trained LLM-based agents on just 486 high-quality,
execution-verified trajectories from CTF-Dojo, achieving up to 11.6% absolute
gains over strong baselines across three competitive benchmarks: InterCode-CTF,
NYU CTF Bench, and Cybench. Our best-performing 32B model reaches 31.9% Pass@1,
establishing a new open-weight state-of-the-art that rivals frontier models
like DeepSeek-V3-0324 and Gemini-2.5-Flash. By framing CTF-style tasks as a
benchmark for executable-agent learning, CTF-Dojo demonstrates that
execution-grounded training signals are not only effective but pivotal in
advancing high-performance ML agents without dependence on costly proprietary
systems.