Sensibilidad-Aracnida: Detección Intrínseca de Riesgos para una Defensa Eficaz de Agentes mediante un Tamizaje Adaptativo Jerárquico
Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening
February 5, 2026
Autores: Zhenxiong Yu, Zhi Yang, Zhiheng Jin, Shuhe Wang, Heng Zhang, Yanlin Fei, Lingfeng Zeng, Fangqi Lou, Shuo Zhang, Tu Hu, Jingping Liu, Rongze Chen, Xingyu Zhu, Kunyi Wang, Chaofa Yuan, Xin Guo, Zhaowei Liu, Feipeng Zhang, Jie Huang, Huacan Wang, Ronghao Chen, Liwen Zhang
cs.AI
Resumen
A medida que los grandes modelos de lenguaje (LLM) evolucionan hacia agentes autónomos, su aplicabilidad en el mundo real se ha expandido significativamente, acompañada de nuevos desafíos de seguridad. La mayoría de los mecanismos de defensa de agentes existentes adoptan un paradigma de verificación obligatoria, en el que la validación de seguridad se activa forzosamente en etapas predefinidas del ciclo de vida del agente. En este trabajo, argumentamos que la seguridad efectiva de los agentes debe ser intrínseca y selectiva, en lugar de estar desacoplada arquitectónicamente y ser obligatoria. Proponemos el framework Spider-Sense, un framework de defensa basado en eventos que utiliza la Detección Intrínseca de Riesgo (IRS, por sus siglas en inglés), que permite a los agentes mantener una vigilancia latente y activar defensas solo ante la percepción de riesgo. Una vez activado, Spider-Sense invoca un mecanismo de defensa jerárquico que equilibra eficiencia y precisión: resuelve patrones conocidos mediante una comparación de similitud ligera, mientras escala los casos ambiguos a un razonamiento interno profundo, eliminando así la dependencia de modelos externos. Para facilitar una evaluación rigurosa, presentamos S²Bench, un benchmark consciente del ciclo de vida que presenta ejecución realista de herramientas y ataques multi-etapa. Experimentos exhaustivos demuestran que Spider-Sense logra un rendimiento defensivo competitivo o superior, alcanzando la Tasa de Éxito de Ataque (ASR) y la Tasa de Falsos Positivos (FPR) más bajas, con solo una sobrecarga de latencia marginal del 8.3%.
English
As large language models (LLMs) evolve into autonomous agents, their real-world applicability has expanded significantly, accompanied by new security challenges. Most existing agent defense mechanisms adopt a mandatory checking paradigm, in which security validation is forcibly triggered at predefined stages of the agent lifecycle. In this work, we argue that effective agent security should be intrinsic and selective rather than architecturally decoupled and mandatory. We propose Spider-Sense framework, an event-driven defense framework based on Intrinsic Risk Sensing (IRS), which allows agents to maintain latent vigilance and trigger defenses only upon risk perception. Once triggered, the Spider-Sense invokes a hierarchical defence mechanism that trades off efficiency and precision: it resolves known patterns via lightweight similarity matching while escalating ambiguous cases to deep internal reasoning, thereby eliminating reliance on external models. To facilitate rigorous evaluation, we introduce S^2Bench, a lifecycle-aware benchmark featuring realistic tool execution and multi-stage attacks. Extensive experiments demonstrate that Spider-Sense achieves competitive or superior defense performance, attaining the lowest Attack Success Rate (ASR) and False Positive Rate (FPR), with only a marginal latency overhead of 8.3\%.