スパイダーセンス:階層的適応スクリーニングによる効率的なエージェント防御のための本質的リスク検知
Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening
February 5, 2026
著者: Zhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang
cs.AI
要旨
大規模言語モデル(LLM)が自律エージェントへと進化するにつれ、その実世界での適用可能性は著しく拡大するとともに、新たなセキュリティ課題も生じている。既存のエージェント防御メカニズムの多くは、強制チェックのパラダイムを採用しており、エージェントライフサイクルの事前定義された段階で強制的にセキュリティ検証がトリガーされる。本研究では、効果的なエージェントセキュリティは、構造的に分離された強制的手法ではなく、本質的かつ選択的であるべきだと主張する。我々は、イベント駆動型防御フレームワーク「Spider-Sense」を提案する。これは本質的リスク検知(IRS)に基づき、エージェントが潜在的な警戒態勢を維持しつつ、リスクを感知した時のみ防御を発動することを可能にする。一度トリガーされると、Spider-Senseは効率性と精度を両立させる階層型防御メカニズムを起動する。既知のパターンは軽量な類似性マッチングで解決し、曖昧なケースは深い内部推論にエスカレーションするため、外部モデルへの依存が排除される。厳密な評価を可能にするため、現実的なツール実行と多段階攻撃を特徴とする、ライフサイクルを意識したベンチマーク「S^2Bench」を導入した。大規模な実験により、Spider-Senseは競合するあるいは優れた防御性能を達成し、最低の攻撃成功率(ASR)と偽陽性率(FPR)を記録するとともに、わずか8.3%の遅延オーバーヘッドしか生じないことが実証された。
English
As large language models (LLMs) evolve into autonomous agents, their real-world applicability has expanded significantly, accompanied by new security challenges. Most existing agent defense mechanisms adopt a mandatory checking paradigm, in which security validation is forcibly triggered at predefined stages of the agent lifecycle. In this work, we argue that effective agent security should be intrinsic and selective rather than architecturally decoupled and mandatory. We propose Spider-Sense framework, an event-driven defense framework based on Intrinsic Risk Sensing (IRS), which allows agents to maintain latent vigilance and trigger defenses only upon risk perception. Once triggered, the Spider-Sense invokes a hierarchical defence mechanism that trades off efficiency and precision: it resolves known patterns via lightweight similarity matching while escalating ambiguous cases to deep internal reasoning, thereby eliminating reliance on external models. To facilitate rigorous evaluation, we introduce S^2Bench, a lifecycle-aware benchmark featuring realistic tool execution and multi-stage attacks. Extensive experiments demonstrate that Spider-Sense achieves competitive or superior defense performance, attaining the lowest Attack Success Rate (ASR) and False Positive Rate (FPR), with only a marginal latency overhead of 8.3\%.