ChatPaper.aiChatPaper

Entrenamiento de Agentes de Modelos de Lenguaje para Detectar Vulnerabilidades con CTF-Dojo

Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

August 25, 2025
Autores: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades excepcionales cuando se entrenan en entornos de ejecución ejecutables, destacándose especialmente en tareas de ingeniería de software mediante bucles de retroalimentación verificados. Sin embargo, los entornos de ejecución fundamentados, escalables y generalizables siguen siendo escasos, lo que limita el progreso en el entrenamiento de agentes de aprendizaje automático más capaces. Presentamos CTF-Dojo, el primer entorno de ejecución a gran escala diseñado específicamente para entrenar LLMs con retroalimentación verificable, que incluye 658 desafíos funcionales de estilo Capture-The-Flag (CTF) encapsulados en Docker con garantía de reproducibilidad. Para permitir un escalado rápido sin intervención manual, desarrollamos CTF-Forge, una canalización automatizada que transforma artefactos disponibles públicamente en entornos de ejecución listos para usar en minutos, eliminando las semanas de configuración experta tradicionalmente requeridas. Entrenamos agentes basados en LLM con solo 486 trayectorias de alta calidad y verificadas en ejecución de CTF-Dojo, logrando mejoras absolutas de hasta el 11.6% sobre líneas base sólidas en tres puntos de referencia competitivos: InterCode-CTF, NYU CTF Bench y Cybench. Nuestro modelo de 32B con mejor rendimiento alcanza un 31.9% en Pass@1, estableciendo un nuevo estado del arte de peso abierto que rivaliza con modelos de vanguardia como DeepSeek-V3-0324 y Gemini-2.5-Flash. Al enmarcar las tareas de estilo CTF como un punto de referencia para el aprendizaje de agentes ejecutables, CTF-Dojo demuestra que las señales de entrenamiento fundamentadas en la ejecución no solo son efectivas, sino también cruciales para avanzar en el desarrollo de agentes de aprendizaje automático de alto rendimiento sin depender de sistemas propietarios costosos.
English
Large language models (LLMs) have demonstrated exceptional capabilities when trained within executable runtime environments, notably excelling at software engineering tasks through verified feedback loops. Yet, scalable and generalizable execution-grounded environments remain scarce, limiting progress in training more capable ML agents. We introduce CTF-Dojo, the first large-scale executable runtime tailored for training LLMs with verifiable feedback, featuring 658 fully functional Capture-The-Flag (CTF)-style challenges containerized in Docker with guaranteed reproducibility. To enable rapid scaling without manual intervention, we develop CTF-Forge, an automated pipeline that transforms publicly available artifacts into ready-to-use execution environments in minutes, eliminating weeks of expert configuration traditionally required. We trained LLM-based agents on just 486 high-quality, execution-verified trajectories from CTF-Dojo, achieving up to 11.6% absolute gains over strong baselines across three competitive benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best-performing 32B model reaches 31.9% Pass@1, establishing a new open-weight state-of-the-art that rivals frontier models like DeepSeek-V3-0324 and Gemini-2.5-Flash. By framing CTF-style tasks as a benchmark for executable-agent learning, CTF-Dojo demonstrates that execution-grounded training signals are not only effective but pivotal in advancing high-performance ML agents without dependence on costly proprietary systems.
PDF21August 27, 2025