Schulung von Sprachmodell-Agenten zur Identifizierung von Schwachstellen mit CTF-Dojo

papers.abstract

Große Sprachmodelle (LLMs) haben außergewöhnliche Fähigkeiten gezeigt, wenn sie in ausführbaren Laufzeitumgebungen trainiert werden, insbesondere durch ihre hervorragende Leistung bei Softwareentwicklungsaufgaben mittels verifizierter Feedback-Schleifen. Dennoch bleiben skalierbare und generalisierbare, ausführungsbasierte Umgebungen rar, was den Fortschritt beim Training leistungsfähigerer ML-Agenten einschränkt. Wir stellen CTF-Dojo vor, die erste groß angelegte ausführbare Laufzeitumgebung, die speziell für das Training von LLMs mit verifizierbarem Feedback entwickelt wurde und 658 voll funktionsfähige Capture-The-Flag (CTF)-artige Herausforderungen bietet, die in Docker containerisiert sind und garantierte Reproduzierbarkeit bieten. Um eine schnelle Skalierung ohne manuelle Eingriffe zu ermöglichen, haben wir CTF-Forge entwickelt, eine automatisierte Pipeline, die öffentlich verfügbare Artefakte in wenigen Minuten in einsatzbereite Ausführungsumgebungen umwandelt und damit wochenlange Expertenkonfigurationen überflüssig macht. Wir haben LLM-basierte Agenten mit nur 486 hochwertigen, ausführungsverifizierten Trajektorien aus CTF-Dojo trainiert und dabei absolute Verbesserungen von bis zu 11,6 % gegenüber starken Baselines in drei wettbewerbsfähigen Benchmarks erzielt: InterCode-CTF, NYU CTF Bench und Cybench. Unser bestes 32B-Modell erreicht 31,9 % Pass@1 und setzt damit einen neuen Open-Weight-State-of-the-art, der mit Spitzenmodellen wie DeepSeek-V3-0324 und Gemini-2.5-Flash konkurriert. Indem wir CTF-artige Aufgaben als Benchmark für das Lernen ausführbarer Agenten betrachten, zeigt CTF-Dojo, dass ausführungsbasierte Trainingssignale nicht nur effektiv, sondern entscheidend für die Weiterentwicklung hochleistungsfähiger ML-Agenten sind, ohne auf kostspielige proprietäre Systeme angewiesen zu sein.

English

Large language models (LLMs) have demonstrated exceptional capabilities when trained within executable runtime environments, notably excelling at software engineering tasks through verified feedback loops. Yet, scalable and generalizable execution-grounded environments remain scarce, limiting progress in training more capable ML agents. We introduce CTF-Dojo, the first large-scale executable runtime tailored for training LLMs with verifiable feedback, featuring 658 fully functional Capture-The-Flag (CTF)-style challenges containerized in Docker with guaranteed reproducibility. To enable rapid scaling without manual intervention, we develop CTF-Forge, an automated pipeline that transforms publicly available artifacts into ready-to-use execution environments in minutes, eliminating weeks of expert configuration traditionally required. We trained LLM-based agents on just 486 high-quality, execution-verified trajectories from CTF-Dojo, achieving up to 11.6% absolute gains over strong baselines across three competitive benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best-performing 32B model reaches 31.9% Pass@1, establishing a new open-weight state-of-the-art that rivals frontier models like DeepSeek-V3-0324 and Gemini-2.5-Flash. By framing CTF-style tasks as a benchmark for executable-agent learning, CTF-Dojo demonstrates that execution-grounded training signals are not only effective but pivotal in advancing high-performance ML agents without dependence on costly proprietary systems.

Schulung von Sprachmodell-Agenten zur Identifizierung von Schwachstellen mit CTF-Dojo

Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

papers.abstract

Support