ChatPaper.aiChatPaper

Spider-Sense: Intrinsiek Risicobewustzijn voor Efficiënte Agentverdediging met Hiërarchisch Adaptieve Screening

Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

February 5, 2026
Auteurs: Zhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang
cs.AI

Samenvatting

Naarmate grote taalmodellen (LLM's) evolueren naar autonome agents, is hun toepasbaarheid in de praktijk aanzienlijk toegenomen, wat gepaard gaat met nieuwe beveiligingsuitdagingen. De meeste bestaande verdedigingsmechanismen voor agents hanteren een verplicht controlemodel, waarbij beveiligingsvalidatie geforceerd wordt geactiveerd op vooraf gedefinieerde fasen van de agentlevenscyclus. In dit werk beargumenteren wij dat effectieve agentbeveiliging intrinsiek en selectief moet zijn in plaats van architecturaal ontkoppeld en verplicht. Wij stellen het Spider-Sense raamwerk voor, een gebeurtenisgestuurd verdedigingsraamwerk gebaseerd op Intrinsic Risk Sensing (IRS), dat agents in staat stelt latente waakzaamheid te behouden en verdediging alleen te activeren bij risicoperceptie. Eenmaal geactiveerd, roept Spider-Sense een hiërarchisch verdedigingsmechanisme in werking dat een afweging maakt tussen efficiëntie en precisie: het lost bekende patronen op via lichtgewicht gelijkenismatching terwijl dubbelzinnige gevallen worden geëscaleerd naar diepgaand intern redeneren, waardoor de afhankelijkheid van externe modellen wordt geëlimineerd. Om een rigoureuze evaluatie mogelijk te maken, introduceren wij S^2Bench, een levenscyclusbewuste benchmark met realistische tooluitvoering en multi-stadia aanvallen. Uitgebreide experimenten tonen aan dat Spider-Sense een concurrerende of superieure verdedigingsprestatie bereikt, met de laagste Attack Success Rate (ASR) en False Positive Rate (FPR), tegen slechts een marginale latentietoename van 8,3%.
English
As large language models (LLMs) evolve into autonomous agents, their real-world applicability has expanded significantly, accompanied by new security challenges. Most existing agent defense mechanisms adopt a mandatory checking paradigm, in which security validation is forcibly triggered at predefined stages of the agent lifecycle. In this work, we argue that effective agent security should be intrinsic and selective rather than architecturally decoupled and mandatory. We propose Spider-Sense framework, an event-driven defense framework based on Intrinsic Risk Sensing (IRS), which allows agents to maintain latent vigilance and trigger defenses only upon risk perception. Once triggered, the Spider-Sense invokes a hierarchical defence mechanism that trades off efficiency and precision: it resolves known patterns via lightweight similarity matching while escalating ambiguous cases to deep internal reasoning, thereby eliminating reliance on external models. To facilitate rigorous evaluation, we introduce S^2Bench, a lifecycle-aware benchmark featuring realistic tool execution and multi-stage attacks. Extensive experiments demonstrate that Spider-Sense achieves competitive or superior defense performance, attaining the lowest Attack Success Rate (ASR) and False Positive Rate (FPR), with only a marginal latency overhead of 8.3\%.
PDF584February 7, 2026