Treinando Agentes de Modelos de Linguagem para Encontrar Vulnerabilidades com CTF-Dojo
Training Language Model Agents to Find Vulnerabilities with CTF-Dojo
August 25, 2025
Autores: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades excepcionais quando treinados em ambientes de execução executáveis, destacando-se especialmente em tarefas de engenharia de software por meio de loops de feedback verificados. No entanto, ambientes de execução fundamentados escaláveis e generalizáveis ainda são escassos, limitando o progresso no treinamento de agentes de ML mais capazes. Apresentamos o CTF-Dojo, o primeiro ambiente de execução executável em grande escala projetado para treinar LLMs com feedback verificável, apresentando 658 desafios do tipo Capture-The-Flag (CTF) totalmente funcionais, containerizados em Docker com garantia de reprodutibilidade. Para permitir escalabilidade rápida sem intervenção manual, desenvolvemos o CTF-Forge, um pipeline automatizado que transforma artefatos disponíveis publicamente em ambientes de execução prontos para uso em minutos, eliminando semanas de configuração especializada tradicionalmente necessária. Treinamos agentes baseados em LLM com apenas 486 trajetórias de alta qualidade e verificadas por execução do CTF-Dojo, alcançando ganhos absolutos de até 11,6% sobre bases fortes em três benchmarks competitivos: InterCode-CTF, NYU CTF Bench e Cybench. Nosso modelo de 32B com melhor desempenho atinge 31,9% de Pass@1, estabelecendo um novo estado da arte de peso aberto que rivaliza com modelos de fronteira como DeepSeek-V3-0324 e Gemini-2.5-Flash. Ao enquadrar tarefas do tipo CTF como um benchmark para aprendizado de agentes executáveis, o CTF-Dojo demonstra que sinais de treinamento fundamentados em execução não são apenas eficazes, mas cruciais para avançar agentes de ML de alto desempenho sem depender de sistemas proprietários custosos.
English
Large language models (LLMs) have demonstrated exceptional capabilities when
trained within executable runtime environments, notably excelling at software
engineering tasks through verified feedback loops. Yet, scalable and
generalizable execution-grounded environments remain scarce, limiting progress
in training more capable ML agents. We introduce CTF-Dojo, the first
large-scale executable runtime tailored for training LLMs with verifiable
feedback, featuring 658 fully functional Capture-The-Flag (CTF)-style
challenges containerized in Docker with guaranteed reproducibility. To enable
rapid scaling without manual intervention, we develop CTF-Forge, an automated
pipeline that transforms publicly available artifacts into ready-to-use
execution environments in minutes, eliminating weeks of expert configuration
traditionally required. We trained LLM-based agents on just 486 high-quality,
execution-verified trajectories from CTF-Dojo, achieving up to 11.6% absolute
gains over strong baselines across three competitive benchmarks: InterCode-CTF,
NYU CTF Bench, and Cybench. Our best-performing 32B model reaches 31.9% Pass@1,
establishing a new open-weight state-of-the-art that rivals frontier models
like DeepSeek-V3-0324 and Gemini-2.5-Flash. By framing CTF-style tasks as a
benchmark for executable-agent learning, CTF-Dojo demonstrates that
execution-grounded training signals are not only effective but pivotal in
advancing high-performance ML agents without dependence on costly proprietary
systems.