Valutazioni Dinamiche del Rischio per Agenti di Cybersecurity Offensiva
Dynamic Risk Assessments for Offensive Cybersecurity Agents
May 23, 2025
Autori: Boyi Wei, Benedikt Stroebl, Jiacen Xu, Joie Zhang, Zhou Li, Peter Henderson
cs.AI
Abstract
I modelli di base stanno diventando sempre più abili come programmatori autonomi, sollevando la prospettiva che possano automatizzare anche operazioni offensive pericolose nel cyberspazio. Le attuali valutazioni dei modelli all'avanguardia esaminano i rischi legati alla cybersecurity di tali agenti, ma la maggior parte non tiene conto dei gradi di libertà disponibili per gli avversari nel mondo reale. In particolare, con verificatori robusti e incentivi finanziari, gli agenti dedicati alla cybersecurity offensiva sono suscettibili di miglioramenti iterativi da parte di potenziali avversari. Sosteniamo che le valutazioni dovrebbero considerare un modello di minaccia ampliato nel contesto della cybersecurity, enfatizzando i diversi gradi di libertà che un avversario potrebbe possedere in ambienti con e senza stato, all'interno di un budget di calcolo fisso. Dimostriamo che, anche con un budget di calcolo relativamente ridotto (8 ore di GPU H100 nel nostro studio), gli avversari possono migliorare le capacità di cybersecurity di un agente su InterCode CTF di oltre il 40% rispetto al baseline — senza alcun aiuto esterno. Questi risultati evidenziano la necessità di valutare il rischio di cybersecurity degli agenti in modo dinamico, offrendo una rappresentazione più accurata del rischio.
English
Foundation models are increasingly becoming better autonomous programmers,
raising the prospect that they could also automate dangerous offensive
cyber-operations. Current frontier model audits probe the cybersecurity risks
of such agents, but most fail to account for the degrees of freedom available
to adversaries in the real world. In particular, with strong verifiers and
financial incentives, agents for offensive cybersecurity are amenable to
iterative improvement by would-be adversaries. We argue that assessments should
take into account an expanded threat model in the context of cybersecurity,
emphasizing the varying degrees of freedom that an adversary may possess in
stateful and non-stateful environments within a fixed compute budget. We show
that even with a relatively small compute budget (8 H100 GPU Hours in our
study), adversaries can improve an agent's cybersecurity capability on
InterCode CTF by more than 40\% relative to the baseline -- without any
external assistance. These results highlight the need to evaluate agents'
cybersecurity risk in a dynamic manner, painting a more representative picture
of risk.