ChatPaper.aiChatPaper

Spider-Sense : Détection Intrinsèque des Risques pour une Défense Efficace des Agents par un Criblage Adaptatif Hiérarchique

Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

February 5, 2026
papers.authors: Zhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang
cs.AI

papers.abstract

Alors que les modèles de langage de grande taille (LLM) évoluent vers des agents autonomes, leur applicabilité dans le monde réel s'est considérablement élargie, accompagnée de nouveaux défis en matière de sécurité. La plupart des mécanismes de défense existants pour les agents adoptent un paradigme de vérification obligatoire, où la validation de sécurité est déclenchée de force à des étapes prédéfinies du cycle de vie de l'agent. Dans ce travail, nous soutenons qu'une sécurité efficace des agents devrait être intrinsèque et sélective plutôt qu'architecturalement découplée et obligatoire. Nous proposons le framework Spider-Sense, un framework de défense événementiel basé sur la Détection Intrinsèque des Risques (IRS), qui permet aux agents de maintenir une vigilance latente et de ne déclencher les défenses qu'en cas de perception d'un risque. Une fois déclenché, le Spider-Sense invoque un mécanisme de défense hiérarchique qui arbitre entre efficacité et précision : il résout les schémas connus via un appariement de similarité léger tout en escaladant les cas ambigus vers un raisonnement interne profond, éliminant ainsi la dépendance à des modèles externes. Pour faciliter une évaluation rigoureuse, nous introduisons S²Bench, un benchmark sensible au cycle de vie intégrant une exécution réaliste d'outils et des attaques multi-étapes. Des expériences approfondies démontrent que Spider-Sense atteint des performances défensives compétitives ou supérieures, obtenant le Taux de Réussite d'Attaque (ASR) et le Taux de Faux Positifs (FPR) les plus bas, avec seulement une surcharge de latence marginale de 8,3 %.
English
As large language models (LLMs) evolve into autonomous agents, their real-world applicability has expanded significantly, accompanied by new security challenges. Most existing agent defense mechanisms adopt a mandatory checking paradigm, in which security validation is forcibly triggered at predefined stages of the agent lifecycle. In this work, we argue that effective agent security should be intrinsic and selective rather than architecturally decoupled and mandatory. We propose Spider-Sense framework, an event-driven defense framework based on Intrinsic Risk Sensing (IRS), which allows agents to maintain latent vigilance and trigger defenses only upon risk perception. Once triggered, the Spider-Sense invokes a hierarchical defence mechanism that trades off efficiency and precision: it resolves known patterns via lightweight similarity matching while escalating ambiguous cases to deep internal reasoning, thereby eliminating reliance on external models. To facilitate rigorous evaluation, we introduce S^2Bench, a lifecycle-aware benchmark featuring realistic tool execution and multi-stage attacks. Extensive experiments demonstrate that Spider-Sense achieves competitive or superior defense performance, attaining the lowest Attack Success Rate (ASR) and False Positive Rate (FPR), with only a marginal latency overhead of 8.3\%.
PDF584February 7, 2026