Паучье чутье: Внутреннее восприятие рисков для эффективной защиты агентов с помощью иерархического адаптивного скрининга
Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening
February 5, 2026
Авторы: Zhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang
cs.AI
Аннотация
По мере эволюции больших языковых моделей (LLM) в автономные агенты их практическая применимость в реальном мире значительно расширилась, что сопровождается новыми проблемами безопасности. Большинство существующих механизмов защиты агентов используют парадигму принудительной проверки, при которой проверка безопасности принудительно запускается на предопределенных этапах жизненного цикла агента. В данной работе мы утверждаем, что эффективная безопасность агентов должна быть внутренней и избирательной, а не архитектурно обособленной и обязательной. Мы предлагаем фреймворк Spider-Sense, событийно-ориентированную систему защиты на основе внутреннего восприятия рисков (Intrinsic Risk Sensing, IRS), которая позволяет агентам сохранять скрытую бдительность и активировать защиту только при восприятии риска. После активации Spider-Sense запускает иерархический защитный механизм, балансирующий между эффективностью и точностью: известные шаблоны угроз обрабатываются с помощью легковесного сравнения по сходству, тогда как неоднозначные случаи эскалируются для глубокого внутреннего анализа, что устраняет зависимость от внешних моделей. Для обеспечения строгой оценки мы представляем S^2Bench, ориентированный на жизненный цикл бенчмарк, включающий реалистичное выполнение инструментов и многоэтапные атаки. Многочисленные эксперименты демонстрируют, что Spider-Sense обеспечивает конкурентоспособную или превосходящую защитную эффективность, достигая наименьшего уровня успешности атак (Attack Success Rate, ASR) и ложных срабатываний (False Positive Rate, FPR) при незначительной дополнительной задержке в 8,3%.
English
As large language models (LLMs) evolve into autonomous agents, their real-world applicability has expanded significantly, accompanied by new security challenges. Most existing agent defense mechanisms adopt a mandatory checking paradigm, in which security validation is forcibly triggered at predefined stages of the agent lifecycle. In this work, we argue that effective agent security should be intrinsic and selective rather than architecturally decoupled and mandatory. We propose Spider-Sense framework, an event-driven defense framework based on Intrinsic Risk Sensing (IRS), which allows agents to maintain latent vigilance and trigger defenses only upon risk perception. Once triggered, the Spider-Sense invokes a hierarchical defence mechanism that trades off efficiency and precision: it resolves known patterns via lightweight similarity matching while escalating ambiguous cases to deep internal reasoning, thereby eliminating reliance on external models. To facilitate rigorous evaluation, we introduce S^2Bench, a lifecycle-aware benchmark featuring realistic tool execution and multi-stage attacks. Extensive experiments demonstrate that Spider-Sense achieves competitive or superior defense performance, attaining the lowest Attack Success Rate (ASR) and False Positive Rate (FPR), with only a marginal latency overhead of 8.3\%.