Evaluaciones Dinámicas de Riesgo para Agentes de Ciberseguridad Ofensiva

Resumen

Los modelos fundacionales están convirtiéndose cada vez más en programadores autónomos más competentes, lo que plantea la posibilidad de que también puedan automatizar operaciones cibernéticas ofensivas peligrosas. Las auditorías actuales de modelos de vanguardia investigan los riesgos de ciberseguridad de estos agentes, pero la mayoría no tiene en cuenta los grados de libertad disponibles para los adversarios en el mundo real. En particular, con verificadores robustos e incentivos financieros, los agentes para la ciberseguridad ofensiva son susceptibles de mejora iterativa por parte de potenciales adversarios. Argumentamos que las evaluaciones deberían considerar un modelo de amenaza ampliado en el contexto de la ciberseguridad, enfatizando los distintos grados de libertad que un adversario puede poseer en entornos con y sin estado, dentro de un presupuesto de cómputo fijo. Demostramos que, incluso con un presupuesto de cómputo relativamente pequeño (8 horas de GPU H100 en nuestro estudio), los adversarios pueden mejorar la capacidad de ciberseguridad de un agente en InterCode CTF en más de un 40 % respecto a la línea base, sin ninguna asistencia externa. Estos resultados subrayan la necesidad de evaluar el riesgo de ciberseguridad de los agentes de manera dinámica, ofreciendo una imagen más representativa del riesgo.

English

Foundation models are increasingly becoming better autonomous programmers, raising the prospect that they could also automate dangerous offensive cyber-operations. Current frontier model audits probe the cybersecurity risks of such agents, but most fail to account for the degrees of freedom available to adversaries in the real world. In particular, with strong verifiers and financial incentives, agents for offensive cybersecurity are amenable to iterative improvement by would-be adversaries. We argue that assessments should take into account an expanded threat model in the context of cybersecurity, emphasizing the varying degrees of freedom that an adversary may possess in stateful and non-stateful environments within a fixed compute budget. We show that even with a relatively small compute budget (8 H100 GPU Hours in our study), adversaries can improve an agent's cybersecurity capability on InterCode CTF by more than 40\% relative to the baseline -- without any external assistance. These results highlight the need to evaluate agents' cybersecurity risk in a dynamic manner, painting a more representative picture of risk.

Evaluaciones Dinámicas de Riesgo para Agentes de Ciberseguridad Ofensiva

Dynamic Risk Assessments for Offensive Cybersecurity Agents

Resumen

Support