Évaluations Dynamiques des Risques pour les Agents de Cybersécurité Offensive

Résumé

Les modèles de fondation deviennent de plus en plus performants en tant que programmeurs autonomes, soulevant la perspective qu'ils pourraient également automatiser des cyber-opérations offensives dangereuses. Les audits actuels des modèles de pointe explorent les risques de cybersécurité liés à ces agents, mais la plupart ne prennent pas en compte les degrés de liberté disponibles pour les adversaires dans le monde réel. En particulier, avec des vérificateurs robustes et des incitations financières, les agents dédiés à la cybersécurité offensive sont susceptibles d'être améliorés de manière itérative par des adversaires potentiels. Nous soutenons que les évaluations devraient intégrer un modèle de menace élargi dans le contexte de la cybersécurité, en mettant l'accent sur les différents degrés de liberté qu'un adversaire peut posséder dans des environnements étatiques et non étatiques, tout en respectant un budget de calcul fixe. Nous démontrons que, même avec un budget de calcul relativement modeste (8 heures de GPU H100 dans notre étude), les adversaires peuvent améliorer les capacités de cybersécurité d'un agent sur InterCode CTF de plus de 40 % par rapport à la référence initiale — sans aucune assistance externe. Ces résultats soulignent la nécessité d'évaluer les risques de cybersécurité des agents de manière dynamique, offrant ainsi une représentation plus fidèle des risques encourus.

English

Foundation models are increasingly becoming better autonomous programmers, raising the prospect that they could also automate dangerous offensive cyber-operations. Current frontier model audits probe the cybersecurity risks of such agents, but most fail to account for the degrees of freedom available to adversaries in the real world. In particular, with strong verifiers and financial incentives, agents for offensive cybersecurity are amenable to iterative improvement by would-be adversaries. We argue that assessments should take into account an expanded threat model in the context of cybersecurity, emphasizing the varying degrees of freedom that an adversary may possess in stateful and non-stateful environments within a fixed compute budget. We show that even with a relatively small compute budget (8 H100 GPU Hours in our study), adversaries can improve an agent's cybersecurity capability on InterCode CTF by more than 40\% relative to the baseline -- without any external assistance. These results highlight the need to evaluate agents' cybersecurity risk in a dynamic manner, painting a more representative picture of risk.