Évaluations Dynamiques des Risques pour les Agents de Cybersécurité Offensive
Dynamic Risk Assessments for Offensive Cybersecurity Agents
May 23, 2025
Auteurs: Boyi Wei, Benedikt Stroebl, Jiacen Xu, Joie Zhang, Zhou Li, Peter Henderson
cs.AI
Résumé
Les modèles de fondation deviennent de plus en plus performants en tant que programmeurs autonomes, soulevant la perspective qu'ils pourraient également automatiser des cyber-opérations offensives dangereuses. Les audits actuels des modèles de pointe explorent les risques de cybersécurité liés à ces agents, mais la plupart ne prennent pas en compte les degrés de liberté disponibles pour les adversaires dans le monde réel. En particulier, avec des vérificateurs robustes et des incitations financières, les agents dédiés à la cybersécurité offensive sont susceptibles d'être améliorés de manière itérative par des adversaires potentiels. Nous soutenons que les évaluations devraient intégrer un modèle de menace élargi dans le contexte de la cybersécurité, en mettant l'accent sur les différents degrés de liberté qu'un adversaire peut posséder dans des environnements étatiques et non étatiques, tout en respectant un budget de calcul fixe. Nous démontrons que, même avec un budget de calcul relativement modeste (8 heures de GPU H100 dans notre étude), les adversaires peuvent améliorer les capacités de cybersécurité d'un agent sur InterCode CTF de plus de 40 % par rapport à la référence initiale — sans aucune assistance externe. Ces résultats soulignent la nécessité d'évaluer les risques de cybersécurité des agents de manière dynamique, offrant ainsi une représentation plus fidèle des risques encourus.
English
Foundation models are increasingly becoming better autonomous programmers,
raising the prospect that they could also automate dangerous offensive
cyber-operations. Current frontier model audits probe the cybersecurity risks
of such agents, but most fail to account for the degrees of freedom available
to adversaries in the real world. In particular, with strong verifiers and
financial incentives, agents for offensive cybersecurity are amenable to
iterative improvement by would-be adversaries. We argue that assessments should
take into account an expanded threat model in the context of cybersecurity,
emphasizing the varying degrees of freedom that an adversary may possess in
stateful and non-stateful environments within a fixed compute budget. We show
that even with a relatively small compute budget (8 H100 GPU Hours in our
study), adversaries can improve an agent's cybersecurity capability on
InterCode CTF by more than 40\% relative to the baseline -- without any
external assistance. These results highlight the need to evaluate agents'
cybersecurity risk in a dynamic manner, painting a more representative picture
of risk.Summary
AI-Generated Summary