Evaluaciones Dinámicas de Riesgo para Agentes de Ciberseguridad Ofensiva
Dynamic Risk Assessments for Offensive Cybersecurity Agents
May 23, 2025
Autores: Boyi Wei, Benedikt Stroebl, Jiacen Xu, Joie Zhang, Zhou Li, Peter Henderson
cs.AI
Resumen
Los modelos fundacionales están convirtiéndose cada vez más en programadores autónomos más competentes, lo que plantea la posibilidad de que también puedan automatizar operaciones cibernéticas ofensivas peligrosas. Las auditorías actuales de modelos de vanguardia investigan los riesgos de ciberseguridad de estos agentes, pero la mayoría no tiene en cuenta los grados de libertad disponibles para los adversarios en el mundo real. En particular, con verificadores robustos e incentivos financieros, los agentes para la ciberseguridad ofensiva son susceptibles de mejora iterativa por parte de potenciales adversarios. Argumentamos que las evaluaciones deberían considerar un modelo de amenaza ampliado en el contexto de la ciberseguridad, enfatizando los distintos grados de libertad que un adversario puede poseer en entornos con y sin estado, dentro de un presupuesto de cómputo fijo. Demostramos que, incluso con un presupuesto de cómputo relativamente pequeño (8 horas de GPU H100 en nuestro estudio), los adversarios pueden mejorar la capacidad de ciberseguridad de un agente en InterCode CTF en más de un 40 % respecto a la línea base, sin ninguna asistencia externa. Estos resultados subrayan la necesidad de evaluar el riesgo de ciberseguridad de los agentes de manera dinámica, ofreciendo una imagen más representativa del riesgo.
English
Foundation models are increasingly becoming better autonomous programmers,
raising the prospect that they could also automate dangerous offensive
cyber-operations. Current frontier model audits probe the cybersecurity risks
of such agents, but most fail to account for the degrees of freedom available
to adversaries in the real world. In particular, with strong verifiers and
financial incentives, agents for offensive cybersecurity are amenable to
iterative improvement by would-be adversaries. We argue that assessments should
take into account an expanded threat model in the context of cybersecurity,
emphasizing the varying degrees of freedom that an adversary may possess in
stateful and non-stateful environments within a fixed compute budget. We show
that even with a relatively small compute budget (8 H100 GPU Hours in our
study), adversaries can improve an agent's cybersecurity capability on
InterCode CTF by more than 40\% relative to the baseline -- without any
external assistance. These results highlight the need to evaluate agents'
cybersecurity risk in a dynamic manner, painting a more representative picture
of risk.Summary
AI-Generated Summary