Treinando Agentes de Modelos de Linguagem para Encontrar Vulnerabilidades com CTF-Dojo

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades excepcionais quando treinados em ambientes de execução executáveis, destacando-se especialmente em tarefas de engenharia de software por meio de loops de feedback verificados. No entanto, ambientes de execução fundamentados escaláveis e generalizáveis ainda são escassos, limitando o progresso no treinamento de agentes de ML mais capazes. Apresentamos o CTF-Dojo, o primeiro ambiente de execução executável em grande escala projetado para treinar LLMs com feedback verificável, apresentando 658 desafios do tipo Capture-The-Flag (CTF) totalmente funcionais, containerizados em Docker com garantia de reprodutibilidade. Para permitir escalabilidade rápida sem intervenção manual, desenvolvemos o CTF-Forge, um pipeline automatizado que transforma artefatos disponíveis publicamente em ambientes de execução prontos para uso em minutos, eliminando semanas de configuração especializada tradicionalmente necessária. Treinamos agentes baseados em LLM com apenas 486 trajetórias de alta qualidade e verificadas por execução do CTF-Dojo, alcançando ganhos absolutos de até 11,6% sobre bases fortes em três benchmarks competitivos: InterCode-CTF, NYU CTF Bench e Cybench. Nosso modelo de 32B com melhor desempenho atinge 31,9% de Pass@1, estabelecendo um novo estado da arte de peso aberto que rivaliza com modelos de fronteira como DeepSeek-V3-0324 e Gemini-2.5-Flash. Ao enquadrar tarefas do tipo CTF como um benchmark para aprendizado de agentes executáveis, o CTF-Dojo demonstra que sinais de treinamento fundamentados em execução não são apenas eficazes, mas cruciais para avançar agentes de ML de alto desempenho sem depender de sistemas proprietários custosos.

English

Large language models (LLMs) have demonstrated exceptional capabilities when trained within executable runtime environments, notably excelling at software engineering tasks through verified feedback loops. Yet, scalable and generalizable execution-grounded environments remain scarce, limiting progress in training more capable ML agents. We introduce CTF-Dojo, the first large-scale executable runtime tailored for training LLMs with verifiable feedback, featuring 658 fully functional Capture-The-Flag (CTF)-style challenges containerized in Docker with guaranteed reproducibility. To enable rapid scaling without manual intervention, we develop CTF-Forge, an automated pipeline that transforms publicly available artifacts into ready-to-use execution environments in minutes, eliminating weeks of expert configuration traditionally required. We trained LLM-based agents on just 486 high-quality, execution-verified trajectories from CTF-Dojo, achieving up to 11.6% absolute gains over strong baselines across three competitive benchmarks: InterCode-CTF, NYU CTF Bench, and Cybench. Our best-performing 32B model reaches 31.9% Pass@1, establishing a new open-weight state-of-the-art that rivals frontier models like DeepSeek-V3-0324 and Gemini-2.5-Flash. By framing CTF-style tasks as a benchmark for executable-agent learning, CTF-Dojo demonstrates that execution-grounded training signals are not only effective but pivotal in advancing high-performance ML agents without dependence on costly proprietary systems.

Treinando Agentes de Modelos de Linguagem para Encontrar Vulnerabilidades com CTF-Dojo

Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

Resumo

Support