Spider-Sense: Rilevamento Intrinseco del Rischio per una Difesa Efficiente degli Agenti con Screening Adattivo Gerarchico

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) evolvono in agenti autonomi, la loro applicabilità nel mondo reale si è notevolmente ampliata, accompagnata da nuove sfide in materia di sicurezza. La maggior parte dei meccanismi di difesa esistenti per gli agenti adotta un paradigma di controllo obbligatorio, in cui la validazione della sicurezza viene attivata forzatamente in fasi predefinite del ciclo di vita dell'agente. In questo lavoro, sosteniamo che una sicurezza efficace per gli agenti debba essere intrinseca e selettiva, piuttosto che architetturalmente disaccoppiata e obbligatoria. Proponiamo il framework Spider-Sense, un framework di difesa guidato da eventi basato sul Rilevamento Intrinseco del Rischio (IRS, Intrinsic Risk Sensing), che consente agli agenti di mantenere una vigilanza latente e di attivare le difese solo in seguito alla percezione di un rischio. Una volta innescato, lo Spider-Sense invoca un meccanismo di difesa gerarchico che bilancia efficienza e precisione: risolve i pattern noti tramite un matching di similarità leggero, mentre escalation dei casi ambigui vengono deferiti a un ragionamento interno profondo, eliminando così la dipendenza da modelli esterni. Per facilitare una valutazione rigorosa, introduciamo S^2Bench, un benchmark consapevole del ciclo di vita che presenta esecuzioni realistiche di strumenti e attacchi multi-stadio. Esperimenti estensivi dimostrano che Spider-Sense raggiunge prestazioni di difesa competitive o superiori, ottenendo il più basso Tasso di Successo degli Attacchi (ASR, Attack Success Rate) e il più basso Tasso di Falsi Positivi (FPR, False Positive Rate), con un overhead di latenza marginale di solo l'8,3%.

English

As large language models (LLMs) evolve into autonomous agents, their real-world applicability has expanded significantly, accompanied by new security challenges. Most existing agent defense mechanisms adopt a mandatory checking paradigm, in which security validation is forcibly triggered at predefined stages of the agent lifecycle. In this work, we argue that effective agent security should be intrinsic and selective rather than architecturally decoupled and mandatory. We propose Spider-Sense framework, an event-driven defense framework based on Intrinsic Risk Sensing (IRS), which allows agents to maintain latent vigilance and trigger defenses only upon risk perception. Once triggered, the Spider-Sense invokes a hierarchical defence mechanism that trades off efficiency and precision: it resolves known patterns via lightweight similarity matching while escalating ambiguous cases to deep internal reasoning, thereby eliminating reliance on external models. To facilitate rigorous evaluation, we introduce S^2Bench, a lifecycle-aware benchmark featuring realistic tool execution and multi-stage attacks. Extensive experiments demonstrate that Spider-Sense achieves competitive or superior defense performance, attaining the lowest Attack Success Rate (ASR) and False Positive Rate (FPR), with only a marginal latency overhead of 8.3\%.

Spider-Sense: Rilevamento Intrinseco del Rischio per una Difesa Efficiente degli Agenti con Screening Adattivo Gerarchico

Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

Abstract

Support