Valutazioni Dinamiche del Rischio per Agenti di Cybersecurity Offensiva

Abstract

I modelli di base stanno diventando sempre più abili come programmatori autonomi, sollevando la prospettiva che possano automatizzare anche operazioni offensive pericolose nel cyberspazio. Le attuali valutazioni dei modelli all'avanguardia esaminano i rischi legati alla cybersecurity di tali agenti, ma la maggior parte non tiene conto dei gradi di libertà disponibili per gli avversari nel mondo reale. In particolare, con verificatori robusti e incentivi finanziari, gli agenti dedicati alla cybersecurity offensiva sono suscettibili di miglioramenti iterativi da parte di potenziali avversari. Sosteniamo che le valutazioni dovrebbero considerare un modello di minaccia ampliato nel contesto della cybersecurity, enfatizzando i diversi gradi di libertà che un avversario potrebbe possedere in ambienti con e senza stato, all'interno di un budget di calcolo fisso. Dimostriamo che, anche con un budget di calcolo relativamente ridotto (8 ore di GPU H100 nel nostro studio), gli avversari possono migliorare le capacità di cybersecurity di un agente su InterCode CTF di oltre il 40% rispetto al baseline — senza alcun aiuto esterno. Questi risultati evidenziano la necessità di valutare il rischio di cybersecurity degli agenti in modo dinamico, offrendo una rappresentazione più accurata del rischio.

English

Foundation models are increasingly becoming better autonomous programmers, raising the prospect that they could also automate dangerous offensive cyber-operations. Current frontier model audits probe the cybersecurity risks of such agents, but most fail to account for the degrees of freedom available to adversaries in the real world. In particular, with strong verifiers and financial incentives, agents for offensive cybersecurity are amenable to iterative improvement by would-be adversaries. We argue that assessments should take into account an expanded threat model in the context of cybersecurity, emphasizing the varying degrees of freedom that an adversary may possess in stateful and non-stateful environments within a fixed compute budget. We show that even with a relatively small compute budget (8 H100 GPU Hours in our study), adversaries can improve an agent's cybersecurity capability on InterCode CTF by more than 40\% relative to the baseline -- without any external assistance. These results highlight the need to evaluate agents' cybersecurity risk in a dynamic manner, painting a more representative picture of risk.

Valutazioni Dinamiche del Rischio per Agenti di Cybersecurity Offensiva

Dynamic Risk Assessments for Offensive Cybersecurity Agents

Abstract

Support