Spider-Sense: Detecção Intrínseca de Riscos para uma Defesa Eficiente de Agentes com Triagem Adaptativa Hierárquica
Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening
February 5, 2026
Autores: Zhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala (LLMs) evoluem para agentes autónomos, a sua aplicabilidade no mundo real expandiu-se significativamente, acompanhada por novos desafios de segurança. A maioria dos mecanismos de defesa de agentes existentes adota um paradigma de verificação obrigatória, no qual a validação de segurança é forçadamente acionada em fases predefinidas do ciclo de vida do agente. Neste trabalho, argumentamos que uma segurança eficaz do agente deve ser intrínseca e seletiva, em vez de arquitetonicamente dissociada e obrigatória. Propomos o framework Spider-Sense, um framework de defesa orientado a eventos baseado na Deteção Intrínseca de Risco (IRS), que permite aos agentes manter uma vigilância latente e acionar defesas apenas após a perceção de risco. Uma vez acionado, o Spider-Sense invoca um mecanismo de defesa hierárquico que equilibra eficiência e precisão: resolve padrões conhecidos através de correspondência leve (*lightweight*) por similaridade, enquanto escalona casos ambíguos para um raciocínio interno profundo, eliminando assim a dependência de modelos externos. Para facilitar uma avaliação rigorosa, introduzimos o S²Bench, um *benchmark* consciente do ciclo de vida, caracterizado pela execução realista de ferramentas e ataques multiestágio. Experiências extensivas demonstram que o Spider-Sense alcança um desempenho de defesa competitivo ou superior, atingindo a mais baixa Taxa de Sucesso de Ataque (ASR) e Taxa de Falsos Positivos (FPR), com apenas uma sobrecarga marginal de latência de 8,3%.
English
As large language models (LLMs) evolve into autonomous agents, their real-world applicability has expanded significantly, accompanied by new security challenges. Most existing agent defense mechanisms adopt a mandatory checking paradigm, in which security validation is forcibly triggered at predefined stages of the agent lifecycle. In this work, we argue that effective agent security should be intrinsic and selective rather than architecturally decoupled and mandatory. We propose Spider-Sense framework, an event-driven defense framework based on Intrinsic Risk Sensing (IRS), which allows agents to maintain latent vigilance and trigger defenses only upon risk perception. Once triggered, the Spider-Sense invokes a hierarchical defence mechanism that trades off efficiency and precision: it resolves known patterns via lightweight similarity matching while escalating ambiguous cases to deep internal reasoning, thereby eliminating reliance on external models. To facilitate rigorous evaluation, we introduce S^2Bench, a lifecycle-aware benchmark featuring realistic tool execution and multi-stage attacks. Extensive experiments demonstrate that Spider-Sense achieves competitive or superior defense performance, attaining the lowest Attack Success Rate (ASR) and False Positive Rate (FPR), with only a marginal latency overhead of 8.3\%.