Spider-Sense: Intrinsische Risiko-Erkennung für effiziente Agenten-Abwehr mit hierarchischem adaptivem Screening
Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening
February 5, 2026
papers.authors: Zhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang
cs.AI
papers.abstract
Mit der Entwicklung großer Sprachmodelle (LLMs) zu autonomen Agenten hat sich deren praktische Anwendbarkeit erheblich erweitert, was mit neuen Sicherheitsherausforderungen einhergeht. Die meisten bestehenden Agenten-Abwehrmechanismen folgen einem obligatorischen Prüfparadigma, bei dem die Sicherheitsvalidierung zwangsweise in vordefinierten Phasen des Agenten-Lebenszyklus ausgelöst wird. In dieser Arbeit vertreten wir die Auffassung, dass eine effektive Agentensicherheit intrinsisch und selektiv sein sollte, anstatt architektonisch entkoppelt und obligatorisch. Wir schlagen das Spider-Sense-Framework vor, ein ereignisgesteuertes Abwehrframework basierend auf Intrinsischer Risiko-Erkennung (IRS), das Agenten ermöglicht, latente Wachsamkeit beizubehalten und Abwehrmaßnahmen nur bei Risikowahrnehmung auszulösen. Einmal ausgelöst, aktiviert Spider-Sense einen hierarchischen Abwehrmechanismus, der Effizienz und Präzision abwägt: Er löst bekannte Muster durch leichtgewichtige Ähnlichkeitsabgleichung, während mehrdeutige Fälle an tiefe interne Reasoning-Prozesse eskaliert werden, wodurch die Abhängigkeit von externen Modellen entfällt. Um eine rigorose Evaluation zu ermöglichen, führen wir S^2Bench ein, einen lebenszyklusbasierten Benchmark mit realistischer Tool-Ausführung und mehrstufigen Angriffen. Umfangreiche Experimente zeigen, dass Spider-Sense eine wettbewerbsfähige oder überlegene Abwehrleistung erzielt, mit der niedrigsten Angriffserfolgsrate (ASR) und falsch-positiven Rate (FPR), bei einem nur marginalen Latenzoverhead von 8,3 %.
English
As large language models (LLMs) evolve into autonomous agents, their real-world applicability has expanded significantly, accompanied by new security challenges. Most existing agent defense mechanisms adopt a mandatory checking paradigm, in which security validation is forcibly triggered at predefined stages of the agent lifecycle. In this work, we argue that effective agent security should be intrinsic and selective rather than architecturally decoupled and mandatory. We propose Spider-Sense framework, an event-driven defense framework based on Intrinsic Risk Sensing (IRS), which allows agents to maintain latent vigilance and trigger defenses only upon risk perception. Once triggered, the Spider-Sense invokes a hierarchical defence mechanism that trades off efficiency and precision: it resolves known patterns via lightweight similarity matching while escalating ambiguous cases to deep internal reasoning, thereby eliminating reliance on external models. To facilitate rigorous evaluation, we introduce S^2Bench, a lifecycle-aware benchmark featuring realistic tool execution and multi-stage attacks. Extensive experiments demonstrate that Spider-Sense achieves competitive or superior defense performance, attaining the lowest Attack Success Rate (ASR) and False Positive Rate (FPR), with only a marginal latency overhead of 8.3\%.